言語処理100本ノック 2020「54. 正解率の計測」

python 自然言語処理

問題文 nlp100.github.io 問題の概要正答率は「accuracy_score()」で計算できます。 import pandas as pd import joblib from sklearn.metrics import accuracy_score X_train = pd.read_table('ch06/train.feature.txt', header=None) X_test = pd.read_ta…

2020-07-26

言語処理100本ノック 2020「53. 予測」

python 自然言語処理

問題文 nlp100.github.io 問題の概要学習を終えたモデルは、予測値が未知の特徴量（X_test）を与えて予測させることができます。 import pandas as pd from sklearn.linear_model import LogisticRegression X_train = pd.read_table('ch06/train.feature.t…

2020-07-26

言語処理100本ノック 2020「52. 学習」

python 自然言語処理

問題文 nlp100.github.io 問題の概要用意した特徴量と予測の対象のペアから、機械学習アルゴリズムを用いて予測器を学習させましょう。 import pandas as pd import joblib from sklearn.linear_model import LogisticRegression X_train = pd.read_table('…

2020-07-26

言語処理100本ノック 2020「51. 特徴量抽出」

python 自然言語処理

問題文 nlp100.github.io 問題の概要カテゴリ分類に有用そうな特徴量を抽出します。ここでは、問題文の指示通りの最低限の特徴量を作ります。sklearnに用意されている「CountVectorizer()」が利用可能です。記事の見出しを単語列に変換したものが最低限の…

2020-07-25

言語処理100本ノック 2020「50. データの入手・整形」

python 自然言語処理

問題文 nlp100.github.io 問題の概要本章では、ニュース記事の見出しからカテゴリを分類する機械学習モデルを構築します。最初に指示に従ってデータセットを整形します。次の4段階で処理しました。ファイルのデータ形式の確認情報源（publisher）が”Reute…

2020-07-19

「Sports Analyst Meetup #8」をオンラインで開催しました #spoana

スポーツ

「Sports Analyst Meetup #8」*1を、7月18日に開催しました。昨今の情勢を受け、7回目に引き続きのオンライン開催でした。資料 spoana.connpass.com togetter togetter.com 発表内容今回は10名の方にLTをしていただきました。いずれも素敵な内容で、多くの…

2020-07-11

東西分割開催のJリーグ各チーム移動距離を可視化

python スポーツ

新型コロナウイルス感染症の拡大防止のため第1節を終えた段階で中断していたJ1リーグは、7月4日に一斉再開しました。7月中は移動による感染リスクを避けるため近隣クラブが対戦する方式を採用しており、具体的には全18チームを東西に2分して各グループ内で対…

2020-06-29

ProbSpace「YouTube動画視聴回数予測」コンペ参加録

python 画像処理自然言語処理 Kaggle

ProbSpaceで開催されていた「YouTube動画視聴回数予測」コンペに参加しました。Lain.さんとチームを組み、public 4位・private 6位でした。 prob.space コンペ概要 YouTube APIで取得できるメタデータを入力として、動画の視聴回数を予測するタスクでした。…

2020-06-26

Stay Homeで『相棒』全部観た（おまけ：nagisa & nlplotで可視化）

随筆 python 自然言語処理

今年4月にKDDIとテレビ朝日が設立したTELASA株式会社が運営する動画配信サービス「TELASA」にて、2000年のpre seasonから2019年の最新作まで『相棒』全シーズンの動画が配信されています。 www.videopass.jp 『相棒』はたびたび夕方に再放送され、「AbemaTV…

2020-06-15

「atmaCup#5 振り返り会」で「MLflow Tracking を用いた実験管理」について発表しました

Kaggle python

昨日開催された「atmaCup#5 振り返り会」*1で「MLflow Tracking を用いた実験管理」について発表しました。本記事にリンク集を掲載します。発表資料コンペで使用していたGitHubリポジトリ https://github.com/upura/atma-comp05 自作ライブラリ「Ayniy」の…

2020-06-12

人工知能学会2020＠熊本のご飯まとめ

随筆

2020年度人工知能学会全国大会 (第34回)に参加してきました。昨年度と同様、現地で満喫したご飯をまとめます。 upura.hatenablog.com おわりに本年度はオンライン開催だったので、熊本料理を満喫する野望は叶いませんでした。（コロナが落ち着いたら必ず…

2020-06-06

「atmaCup オンサイトデータコンペ#5」参加録 #atmaCup

Kaggle python

「atmaCup オンサイトデータコンペ#5」*1に参加し、public 16位・private 27位*2でした。観測データを基にした2値分類タスクで、指標はPR-AUC*3でした。途中から K_mat さん*4 とチームマージし、テーブルデータに対するニューラルネットワーク周りなど、大…

2020-05-28

Nishika「財務・非財務情報を活用した株主価値予測」コンペ2位でした

python Kaggle

Nishikaで開催されていた「財務・非財務情報を活用した株主価値予測」コンペ*1で、2位になりました。オープンデータのコンペなので、pipelineを整備しながら、のんびりと取り組みました。最終的にはLightGBMとCatBoostで3種類の予測値（public 19位, 19位, …

2020-05-23

第85回R勉強会@東京 #TokyoR にて "R言語で「言語処理100本ノック 2020」" の題目で発表しました

R 自然言語処理

第85回R勉強会@東京 #TokyoR にて、LT発表しました。2019年1月開催の第75回以来*1、久々の参加でした。 tokyor.connpass.com 発表の題目は "R言語で「言語処理100本ノック 2020」" で、4月に取り組んでいた「言語処理100本ノック 2020」の紹介*2＆R言語での…

2020-05-16

Jupyter Notebook の CSS 要素を編集する

Kaggle

Jupyter Notebook の CSS 要素を編集する方法に関するTipsです。IPython.core.displayを用いて、次のようにCSS要素を編集できます。 from IPython.core.display import display, HTML display(HTML("<style>.cm-s-ipython span.cm-comment { color: red; }</style>")) こん…

2020-05-15

「BERT応用勉強会」参加録 #xpaperchallenge

自然言語処理

「BERT応用勉強会」にオンライン参加しました。簡単な発表概要と個人的な所感をメモしておきます。発表動画のアーカイブは、YouTubeで後日公開されるそうですました。slidoとYouTubeコメントでの質疑応答はSpreadsheetにまとめてみました。 nlpaper-challeng…

2020-05-10

Profile

問題文 nlp100.github.io 問題の概要両対数グラフとは、それぞれの次元のデータに対してlogを取ったグラフです。 import math from collections import defaultdict import matplotlib.pyplot as plt def parse_mecab(block): res = [] for line in block.s…

2020-04-20

言語処理100本ノック 2020「38. ヒストグラム」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「matplotlib」を用いて、ヒストグラムを描きましょう。 from collections import defaultdict import matplotlib.pyplot as plt def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': retu…

u++の備忘録

2020-01-01から1年間の記事一覧

言語処理100本ノック 2020「54. 正解率の計測」

言語処理100本ノック 2020「53. 予測」

言語処理100本ノック 2020「52. 学習」

言語処理100本ノック 2020「51. 特徴量抽出」

言語処理100本ノック 2020「50. データの入手・整形」

「Sports Analyst Meetup #8」をオンラインで開催しました #spoana

東西分割開催のJリーグ各チーム移動距離を可視化

ProbSpace「YouTube動画視聴回数予測」コンペ参加録

Stay Homeで『相棒』全部観た（おまけ：nagisa & nlplotで可視化）

「atmaCup#5 振り返り会」で「MLflow Tracking を用いた実験管理」について発表しました

人工知能学会2020＠熊本のご飯まとめ

「atmaCup オンサイトデータコンペ#5」参加録 #atmaCup

Nishika「財務・非財務情報を活用した株主価値予測」コンペ2位でした

第85回R勉強会@東京 #TokyoR にて "R言語で「言語処理100本ノック 2020」" の題目で発表しました

Jupyter Notebook の CSS 要素を編集する

「BERT応用勉強会」参加録 #xpaperchallenge

Profile

企業名認識のデータセット「JCLdic」で学習したEncoder-Decoderモデル

言語処理100本ノック 2020「49. 名詞間の係り受けパスの抽出」

言語処理100本ノック 2020「48. 名詞から根へのパスの抽出」

言語処理100本ノック 2020「47. 機能動詞構文のマイニング」

言語処理100本ノック 2020「46. 動詞の格フレーム情報の抽出」

言語処理100本ノック 2020「45. 動詞の格パターンの抽出」

言語処理100本ノック 2020「44. 係り受け木の可視化」

言語処理100本ノック 2020「43. 名詞を含む文節が動詞を含む文節に係るものを抽出」

言語処理100本ノック 2020「42. 係り元と係り先の文節の表示」

言語処理100本ノック 2020「41. 係り受け解析結果の読み込み（文節・係り受け）」

言語処理100本ノック 2020「40. 係り受け解析結果の読み込み（形態素）」

言語処理100本ノック 2020「39. Zipfの法則」

言語処理100本ノック 2020「38. ヒストグラム」