u++の備忘録

自然言語処理

【論文メモ】文書分類とのマルチタスク学習による重要文抽出

論文名 磯沼大 et al.: 文書分類とのマルチタスク学習による重要文抽出, 人工知能学会全国大会論文集(第31回), 2017.05. jsai2017:1J1-4 文書分類とのマルチタスク学習による重要文抽出 どんなもの? 参照要約(人手で作成された要約)が少量の場合におい…

【論文メモ】業績変動を考慮した決算短信からの重要文抽出

論文名 磯沼大 et al.: 業績変動を考慮した決算短信からの重要文抽出, 情報処理学会研究報告, Vol. 2016-NL-227, No. 6, 2016.07. 情報学広場:情報処理学会電子図書館 どんなもの? 概要から抜粋 本研究では過去の決算短信と決算記事から業績変動と短信文の…

"「いいね!」増えるハッシュタグ、AIが提案、東大が新技術"という記事の補足

以下のようなキャッチーな科学ニュースがありましたが、いかんせん「東大が新技術」だけでどの部局の誰が発表したかなど情報が欠落していたので、備忘録としての補足。www.itmedia.co.jp 科学技術振興機構(JST)からのプレスリリース www.jst.go.jp 研究…

【Python, Gensim】doc2vecで関連記事の見出しを抽出する試み

今回は、過去2回の記事*1*2でも使った日経新聞のツイッター(@nikkei)の投稿文のデータセットを用いて、類似する見出しを抽出しようという話です。とある見出しと類似する見出し、つまり関連記事を取り出す試みになります。 doc2vec この問題に取り組むため、…

rでテキストファイルの文を1行ずつ分かち書き

今回は、前回の記事で作成したデータセットについて、分かち書きを実行します。分かち書きすることで、例えばword2vec*1など更なる分析に活用できます。 前回に引き続き利用するRパッケージRMeCab*2には、RMeCabTextという関数が用意されています。 RMeCabTe…

日経新聞のツイッター(@nikkei)で出現頻度の高い単語を抽出してみた

今回の記事では、自然言語処理の勉強として、日経新聞のツイッター(@nikkei)において出現頻度の高い単語を抽出します。 データセット 日経新聞のツイッター(@nikkei)の投稿文 期間:2017年6月7日~2017年7月26日 当該期間の3200件の投稿から、RTを除いた3047…