自然言語処理
論文名 磯沼大 et al.: 文書分類とのマルチタスク学習による重要文抽出, 人工知能学会全国大会論文集(第31回), 2017.05. jsai2017:1J1-4 文書分類とのマルチタスク学習による重要文抽出 どんなもの? 参照要約(人手で作成された要約)が少量の場合におい…
論文名 磯沼大 et al.: 業績変動を考慮した決算短信からの重要文抽出, 情報処理学会研究報告, Vol. 2016-NL-227, No. 6, 2016.07. 情報学広場:情報処理学会電子図書館 どんなもの? 概要から抜粋 本研究では過去の決算短信と決算記事から業績変動と短信文の…
以下のようなキャッチーな科学ニュースがありましたが、いかんせん「東大が新技術」だけでどの部局の誰が発表したかなど情報が欠落していたので、備忘録としての補足。www.itmedia.co.jp 科学技術振興機構(JST)からのプレスリリース www.jst.go.jp 研究…
今回は、過去2回の記事*1*2でも使った日経新聞のツイッター(@nikkei)の投稿文のデータセットを用いて、類似する見出しを抽出しようという話です。とある見出しと類似する見出し、つまり関連記事を取り出す試みになります。 doc2vec この問題に取り組むため、…
今回は、前回の記事で作成したデータセットについて、分かち書きを実行します。分かち書きすることで、例えばword2vec*1など更なる分析に活用できます。 前回に引き続き利用するRパッケージRMeCab*2には、RMeCabTextという関数が用意されています。 RMeCabTe…
今回の記事では、自然言語処理の勉強として、日経新聞のツイッター(@nikkei)において出現頻度の高い単語を抽出します。 データセット 日経新聞のツイッター(@nikkei)の投稿文 期間:2017年6月7日~2017年7月26日 当該期間の3200件の投稿から、RTを除いた3047…