u++の備忘録

2017-08-02から1日間の記事一覧

"「いいね!」増えるハッシュタグ、AIが提案、東大が新技術"という記事の補足

以下のようなキャッチーな科学ニュースがありましたが、いかんせん「東大が新技術」だけでどの部局の誰が発表したかなど情報が欠落していたので、備忘録としての補足。www.itmedia.co.jp 科学技術振興機構(JST)からのプレスリリース www.jst.go.jp 研究…

【Python, Gensim】doc2vecで関連記事の見出しを抽出する試み

今回は、過去2回の記事*1*2でも使った日経新聞のツイッター(@nikkei)の投稿文のデータセットを用いて、類似する見出しを抽出しようという話です。とある見出しと類似する見出し、つまり関連記事を取り出す試みになります。 doc2vec この問題に取り組むため、…

rでテキストファイルの文を1行ずつ分かち書き

今回は、前回の記事で作成したデータセットについて、分かち書きを実行します。分かち書きすることで、例えばword2vec*1など更なる分析に活用できます。 前回に引き続き利用するRパッケージRMeCab*2には、RMeCabTextという関数が用意されています。 RMeCabTe…