u++の備忘録

python

言語処理100本ノック 2020「54. 正解率の計測」

問題文 nlp100.github.io 問題の概要 正答率は「accuracy_score()」で計算できます。 import pandas as pd import joblib from sklearn.metrics import accuracy_score X_train = pd.read_table('ch06/train.feature.txt', header=None) X_test = pd.read_ta…

言語処理100本ノック 2020「53. 予測」

問題文 nlp100.github.io 問題の概要 学習を終えたモデルは、予測値が未知の特徴量(X_test)を与えて予測させることができます。 import pandas as pd from sklearn.linear_model import LogisticRegression X_train = pd.read_table('ch06/train.feature.t…

言語処理100本ノック 2020「52. 学習」

問題文 nlp100.github.io 問題の概要 用意した特徴量と予測の対象のペアから、機械学習アルゴリズムを用いて予測器を学習させましょう。 import pandas as pd import joblib from sklearn.linear_model import LogisticRegression X_train = pd.read_table('…

言語処理100本ノック 2020「51. 特徴量抽出」

問題文 nlp100.github.io 問題の概要 カテゴリ分類に有用そうな特徴量を抽出します。ここでは、問題文の指示通りの最低限の特徴量を作ります。sklearnに用意されている「CountVectorizer()」が利用可能です。 記事の見出しを単語列に変換したものが最低限の…

言語処理100本ノック 2020「50. データの入手・整形」

問題文 nlp100.github.io 問題の概要 本章では、ニュース記事の見出しからカテゴリを分類する機械学習モデルを構築します。最初に指示に従ってデータセットを整形します。次の4段階で処理しました。 ファイルのデータ形式の確認 情報源(publisher)が”Reute…

東西分割開催のJリーグ各チーム移動距離を可視化

新型コロナウイルス感染症の拡大防止のため第1節を終えた段階で中断していたJ1リーグは、7月4日に一斉再開しました。7月中は移動による感染リスクを避けるため近隣クラブが対戦する方式を採用しており、具体的には全18チームを東西に2分して各グループ内で対…

ProbSpace「YouTube動画視聴回数予測」コンペ参加録

ProbSpaceで開催されていた「YouTube動画視聴回数予測」コンペに参加しました。Lain.さんとチームを組み、public 4位・private 6位でした。 prob.space コンペ概要 YouTube APIで取得できるメタデータを入力として、動画の視聴回数を予測するタスクでした。…

Stay Homeで『相棒』全部観た(おまけ:nagisa & nlplotで可視化)

今年4月にKDDIとテレビ朝日が設立したTELASA株式会社が運営する動画配信サービス「TELASA」にて、2000年のpre seasonから2019年の最新作まで『相棒』全シーズンの動画が配信されています。 www.videopass.jp 『相棒』はたびたび夕方に再放送され、「AbemaTV…

「atmaCup#5 振り返り会」で「MLflow Tracking を用いた実験管理」について発表しました

昨日開催された「atmaCup#5 振り返り会」*1で「MLflow Tracking を用いた実験管理」について発表しました。本記事にリンク集を掲載します。 発表資料 コンペで使用していたGitHubリポジトリ https://github.com/upura/atma-comp05 自作ライブラリ「Ayniy」の…

「atmaCup オンサイトデータコンペ#5」参加録 #atmaCup

「atmaCup オンサイトデータコンペ#5」*1に参加し、public 16位・private 27位*2でした。観測データを基にした2値分類タスクで、指標はPR-AUC*3でした。 途中から K_mat さん*4 とチームマージし、テーブルデータに対するニューラルネットワーク周りなど、大…

Nishika「財務・非財務情報を活用した株主価値予測」コンペ2位でした

Nishikaで開催されていた「財務・非財務情報を活用した株主価値予測」コンペ*1で、2位になりました。 オープンデータのコンペなので、pipelineを整備しながら、のんびりと取り組みました。最終的にはLightGBMとCatBoostで3種類の予測値(public 19位, 19位, …

企業名認識のデータセット「JCLdic」で学習したEncoder-Decoderモデル

TISが公開している企業名認識のためのデータセット「JCLdic」*1を用いて、Encoder-Decoderモデルを学習させてみました。 結果と考察 学習・検証に利用していないデータに対して適応した結果を下図に示します。統計的な出現頻度に基づくので当然な気がします…

言語処理100本ノック 2020「49. 名詞間の係り受けパスの抽出」

問題文 nlp100.github.io 問題の概要 問題文に提示された仕様に従って出力します。第5章は2015年版と同様なので、先駆者のコード*1を流用しつつ実装しました。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] s…

言語処理100本ノック 2020「48. 名詞から根へのパスの抽出」

問題文 nlp100.github.io 問題の概要 問題文に提示された仕様に従って出力します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = dc['pos'] self.pos1 = dc['pos1'] class Chunk: def __init__(se…

言語処理100本ノック 2020「47. 機能動詞構文のマイニング」

問題文 nlp100.github.io 問題の概要 問題文に提示された仕様に従って出力します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = dc['pos'] self.pos1 = dc['pos1'] class Chunk: def __init__(se…

言語処理100本ノック 2020「46. 動詞の格フレーム情報の抽出」

問題文 nlp100.github.io 問題の概要 問題文に提示された仕様に従って出力します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = dc['pos'] self.pos1 = dc['pos1'] class Chunk: def __init__(se…

言語処理100本ノック 2020「45. 動詞の格パターンの抽出」

問題文 nlp100.github.io 問題の概要 問題文に提示された仕様に従って出力します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = dc['pos'] self.pos1 = dc['pos1'] class Chunk: def __init__(se…

言語処理100本ノック 2020「44. 係り受け木の可視化」

問題文 nlp100.github.io 問題の概要 問題文にある通り、pydotを用いて有向グラフを可視化します。 pairs というリスト内に、隣接するノードのペアを格納し pydot.graph_from_edges(pairs) を呼び出します。 import pydot class Morph: def __init__(self, d…

言語処理100本ノック 2020「43. 名詞を含む文節が動詞を含む文節に係るものを抽出」

問題文 nlp100.github.io 問題の概要 「42. 係り元と係り先の文節の表示」に「名詞を含む文節が,動詞を含む文節に係るとき」の条件を付与します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = d…

言語処理100本ノック 2020「42. 係り元と係り先の文節の表示」

問題文 nlp100.github.io 問題の概要 「41. 係り受け解析結果の読み込み(文節・係り受け)」を活用し、全ての係り受け関係を洗い出します。結合時は、品詞が記号の際には空文字列に置換しています。 class Morph: def __init__(self, dc): self.surface = d…

言語処理100本ノック 2020「41. 係り受け解析結果の読み込み(文節・係り受け)」

問題文 nlp100.github.io 問題の概要 問題文の指示通り、文節を表すクラス Chunk を実装します。 class Morph: def __init__(self, dc): self.surface = dc['surface'] self.base = dc['base'] self.pos = dc['pos'] self.pos1 = dc['pos1'] class Chunk: de…

言語処理100本ノック 2020「40. 係り受け解析結果の読み込み(形態素)」

問題文 nlp100.github.io 問題の概要 本章では、CaboChaを用いて係り受け解析した結果を読み込んでいきます。手始めに、以下コマンドでファイルに対して係り受け解析を実行しましょう。 cat ch05/ai.ja/ai.ja.txt | cabocha -f1 > ch05/ai.ja.txt.cabocha あ…

言語処理100本ノック 2020「39. Zipfの法則」

問題文 nlp100.github.io 問題の概要 両対数グラフとは、それぞれの次元のデータに対してlogを取ったグラフです。 import math from collections import defaultdict import matplotlib.pyplot as plt def parse_mecab(block): res = [] for line in block.s…

言語処理100本ノック 2020「38. ヒストグラム」

問題文 nlp100.github.io 問題の概要 「matplotlib」を用いて、ヒストグラムを描きましょう。 from collections import defaultdict import matplotlib.pyplot as plt def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': retu…

言語処理100本ノック 2020「37. 「猫」と共起頻度の高い上位10語」

問題文 nlp100.github.io 問題の概要 出現頻度辞書を作る前の段階で、集計対象とする文章を絞り込んでおきます。「list(filter(lambda x: '猫' in x, wordList))」の処理で、猫という語を持つ文のみに限定しています。 from collections import defaultdict …

言語処理100本ノック 2020「36. 頻度上位10語」

問題文 nlp100.github.io 問題の概要 35. 単語の出現頻度の結果の上位10件を棒グラフで可視化するだけです。 可視化ライブラリとしては「matplotlib」を使っています。日本語が文字化けする現象には「japanize_matplotlib」*1で対応しています。 from collec…

言語処理100本ノック 2020「35. 単語の出現頻度」

問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から、全ての単語を取り出し、出現頻度を計算します。 全ての単語を前から確認していき(単語, 出現回数)のペアの辞書を作り上げました。普通のdictではなく「def…

言語処理100本ノック 2020「34. 名詞の連接」

問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から、データを取り出します。抽出条件は最長一致の名詞の連接です。 品詞を前から見ていき、次の順に処理します。 リスト res, tmpを用意 条件分岐 名詞の場合は…

言語処理100本ノック 2020「33. 「AのB」」

問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から、データを取り出します。抽出条件は「名詞」+「の」+「名詞」です。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': retu…

言語処理100本ノック 2020「31. 動詞」

問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から「x['pos'] == '動詞'」の「surface」部分を取り出します。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': return res (s…