言語処理100本ノック 2020「54. 正解率の計測」

python 自然言語処理

問題文 nlp100.github.io 問題の概要正答率は「accuracy_score()」で計算できます。 import pandas as pd import joblib from sklearn.metrics import accuracy_score X_train = pd.read_table('ch06/train.feature.txt', header=None) X_test = pd.read_ta…

2020-07-26

言語処理100本ノック 2020「53. 予測」

python 自然言語処理

問題文 nlp100.github.io 問題の概要学習を終えたモデルは、予測値が未知の特徴量（X_test）を与えて予測させることができます。 import pandas as pd from sklearn.linear_model import LogisticRegression X_train = pd.read_table('ch06/train.feature.t…

2020-07-26

言語処理100本ノック 2020「52. 学習」

python 自然言語処理

問題文 nlp100.github.io 問題の概要用意した特徴量と予測の対象のペアから、機械学習アルゴリズムを用いて予測器を学習させましょう。 import pandas as pd import joblib from sklearn.linear_model import LogisticRegression X_train = pd.read_table('…

2020-07-26

言語処理100本ノック 2020「51. 特徴量抽出」

python 自然言語処理

問題文 nlp100.github.io 問題の概要カテゴリ分類に有用そうな特徴量を抽出します。ここでは、問題文の指示通りの最低限の特徴量を作ります。sklearnに用意されている「CountVectorizer()」が利用可能です。記事の見出しを単語列に変換したものが最低限の…

2020-07-25

言語処理100本ノック 2020「50. データの入手・整形」

python 自然言語処理

問題文 nlp100.github.io 問題の概要本章では、ニュース記事の見出しからカテゴリを分類する機械学習モデルを構築します。最初に指示に従ってデータセットを整形します。次の4段階で処理しました。ファイルのデータ形式の確認情報源（publisher）が”Reute…

2020-07-11

東西分割開催のJリーグ各チーム移動距離を可視化

python スポーツ

新型コロナウイルス感染症の拡大防止のため第1節を終えた段階で中断していたJ1リーグは、7月4日に一斉再開しました。7月中は移動による感染リスクを避けるため近隣クラブが対戦する方式を採用しており、具体的には全18チームを東西に2分して各グループ内で対…

2020-06-29

ProbSpace「YouTube動画視聴回数予測」コンペ参加録

python 画像処理自然言語処理 Kaggle

ProbSpaceで開催されていた「YouTube動画視聴回数予測」コンペに参加しました。Lain.さんとチームを組み、public 4位・private 6位でした。 prob.space コンペ概要 YouTube APIで取得できるメタデータを入力として、動画の視聴回数を予測するタスクでした。…

2020-06-26

Stay Homeで『相棒』全部観た（おまけ：nagisa & nlplotで可視化）

随筆 python 自然言語処理

今年4月にKDDIとテレビ朝日が設立したTELASA株式会社が運営する動画配信サービス「TELASA」にて、2000年のpre seasonから2019年の最新作まで『相棒』全シーズンの動画が配信されています。 www.videopass.jp 『相棒』はたびたび夕方に再放送され、「AbemaTV…

2020-06-15

「atmaCup#5 振り返り会」で「MLflow Tracking を用いた実験管理」について発表しました

Kaggle python

昨日開催された「atmaCup#5 振り返り会」*1で「MLflow Tracking を用いた実験管理」について発表しました。本記事にリンク集を掲載します。発表資料コンペで使用していたGitHubリポジトリ https://github.com/upura/atma-comp05 自作ライブラリ「Ayniy」の…

2020-06-06

「atmaCup オンサイトデータコンペ#5」参加録 #atmaCup

Kaggle python

「atmaCup オンサイトデータコンペ#5」*1に参加し、public 16位・private 27位*2でした。観測データを基にした2値分類タスクで、指標はPR-AUC*3でした。途中から K_mat さん*4 とチームマージし、テーブルデータに対するニューラルネットワーク周りなど、大…

2020-05-28

Nishika「財務・非財務情報を活用した株主価値予測」コンペ2位でした

python Kaggle

Nishikaで開催されていた「財務・非財務情報を活用した株主価値予測」コンペ*1で、2位になりました。オープンデータのコンペなので、pipelineを整備しながら、のんびりと取り組みました。最終的にはLightGBMとCatBoostで3種類の予測値（public 19位, 19位, …

2020-05-05

企業名認識のデータセット「JCLdic」で学習したEncoder-Decoderモデル

python 自然言語処理

TISが公開している企業名認識のためのデータセット「JCLdic」*1を用いて、Encoder-Decoderモデルを学習させてみました。結果と考察学習・検証に利用していないデータに対して適応した結果を下図に示します。統計的な出現頻度に基づくので当然な気がします…

2020-04-25

言語処理100本ノック 2020「49. 名詞間の係り受けパスの抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要問題文に提示された仕様に従って出力します。第5章は2015年版と同様なので、先駆者のコード*1を流用しつつ実装しました。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] s…

2020-04-25

言語処理100本ノック 2020「48. 名詞から根へのパスの抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要問題文に提示された仕様に従って出力します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = dc['pos'] self.pos1 = dc['pos1'] class Chunk: def __init__(se…

2020-04-25

言語処理100本ノック 2020「47. 機能動詞構文のマイニング」

自然言語処理 python

問題文 nlp100.github.io 問題の概要問題文に提示された仕様に従って出力します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = dc['pos'] self.pos1 = dc['pos1'] class Chunk: def __init__(se…

2020-04-25

言語処理100本ノック 2020「46. 動詞の格フレーム情報の抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要問題文に提示された仕様に従って出力します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = dc['pos'] self.pos1 = dc['pos1'] class Chunk: def __init__(se…

2020-04-25

言語処理100本ノック 2020「45. 動詞の格パターンの抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要問題文に提示された仕様に従って出力します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = dc['pos'] self.pos1 = dc['pos1'] class Chunk: def __init__(se…

2020-04-25

言語処理100本ノック 2020「44. 係り受け木の可視化」

自然言語処理 python

問題文 nlp100.github.io 問題の概要問題文にある通り、pydotを用いて有向グラフを可視化します。 pairs というリスト内に、隣接するノードのペアを格納し pydot.graph_from_edges(pairs) を呼び出します。 import pydot class Morph: def __init__(self, d…

2020-04-25

言語処理100本ノック 2020「43. 名詞を含む文節が動詞を含む文節に係るものを抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「42. 係り元と係り先の文節の表示」に「名詞を含む文節が，動詞を含む文節に係るとき」の条件を付与します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = d…

2020-04-25

言語処理100本ノック 2020「42. 係り元と係り先の文節の表示」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「41. 係り受け解析結果の読み込み（文節・係り受け）」を活用し、全ての係り受け関係を洗い出します。結合時は、品詞が記号の際には空文字列に置換しています。 class Morph: def __init__(self, dc): self.surface = d…

2020-04-25

言語処理100本ノック 2020「41. 係り受け解析結果の読み込み（文節・係り受け）」

自然言語処理 python

問題文 nlp100.github.io 問題の概要問題文の指示通り、文節を表すクラス Chunk を実装します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = dc['pos'] self.pos1 = dc['pos1'] class Chunk: de…

2020-04-25

言語処理100本ノック 2020「40. 係り受け解析結果の読み込み（形態素）」

自然言語処理 python

問題文 nlp100.github.io 問題の概要本章では、CaboChaを用いて係り受け解析した結果を読み込んでいきます。手始めに、以下コマンドでファイルに対して係り受け解析を実行しましょう。 cat ch05/ai.ja/ai.ja.txt | cabocha -f1 > ch05/ai.ja.txt.cabocha あ…

2020-04-20

言語処理100本ノック 2020「39. Zipfの法則」

自然言語処理 python

問題文 nlp100.github.io 問題の概要両対数グラフとは、それぞれの次元のデータに対してlogを取ったグラフです。 import math from collections import defaultdict import matplotlib.pyplot as plt def parse_mecab(block): res = [] for line in block.s…

2020-04-20

言語処理100本ノック 2020「38. ヒストグラム」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「matplotlib」を用いて、ヒストグラムを描きましょう。 from collections import defaultdict import matplotlib.pyplot as plt def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': retu…

2020-04-20

言語処理100本ノック 2020「37. 「猫」と共起頻度の高い上位10語」

自然言語処理 python

問題文 nlp100.github.io 問題の概要出現頻度辞書を作る前の段階で、集計対象とする文章を絞り込んでおきます。「list(filter(lambda x: '猫' in x, wordList))」の処理で、猫という語を持つ文のみに限定しています。 from collections import defaultdict …

2020-04-20

言語処理100本ノック 2020「36. 頻度上位10語」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 35. 単語の出現頻度の結果の上位10件を棒グラフで可視化するだけです。可視化ライブラリとしては「matplotlib」を使っています。日本語が文字化けする現象には「japanize_matplotlib」*1で対応しています。 from collec…

2020-04-20

言語処理100本ノック 2020「35. 単語の出現頻度」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「30. 形態素解析結果の読み込み」で作成したデータ構造から、全ての単語を取り出し、出現頻度を計算します。全ての単語を前から確認していき（単語, 出現回数）のペアの辞書を作り上げました。普通のdictではなく「def…

2020-04-20

言語処理100本ノック 2020「34. 名詞の連接」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「30. 形態素解析結果の読み込み」で作成したデータ構造から、データを取り出します。抽出条件は最長一致の名詞の連接です。品詞を前から見ていき、次の順に処理します。リスト res, tmpを用意条件分岐名詞の場合は…

2020-04-20

言語処理100本ノック 2020「33. 「AのB」」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「30. 形態素解析結果の読み込み」で作成したデータ構造から、データを取り出します。抽出条件は「名詞」+「の」+「名詞」です。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': retu…

2020-04-20

言語処理100本ノック 2020「31. 動詞」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「30. 形態素解析結果の読み込み」で作成したデータ構造から「x['pos'] == '動詞'」の「surface」部分を取り出します。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': return res (s…