u++の備忘録

【論文メモ】ニュースからのトピックに関するストーリーラインの生成

ニュースからのトピックに関するストーリーラインの生成

どんなもの?

ニュースコーパスからトピック (知りたい事柄) に関連するテーマを抽出し,そのテーマに関連する文が時系列順に並んだ文集合 (ストーリーライン) を出力するシステムを提案

先行研究と比べてどこがすごい?

  • 複数の文からなる文書に対して,あるキーワードに基づいて重要文抽出を行う [5] 試みはあるが,出力される文集合は 1 つのみである
  • 知りたい事柄についての情報の中には様々なテーマがあるため,テーマを自動で抽出し,文集合を複数出力することが望ましい

技術や手法のキモはどこ?

f:id:upura:20180506114027p:plain

文集合からの重要語の抽出方法

以下の式で重要度を計算し,上位 N 語を重要語とする.ただし, R_\omegaは,単語 \omegaの重要度(文集合における \omegaの出現頻度を,コーパス全体における \omegaの出現頻度で正規化したもの)

 R_\omega=\frac{c_\omega}{c_{all}}\cdot\frac{C_\omega}{C_{all}}

どうやって有効だと検証した?

  • 人による評価と比較
  • 予備実験では筆者と別の3人の計4人で実施し、Precision, Recall, F値に個人差がないと確認
  • 本実験では筆者のみで実施

f:id:upura:20180506114601p:plain

議論はある?

  • 適切な文集合が一定の Precision で得られることを示し,Recall を改善する課題を明確化した
  • 本稿では触れていない「タイトル生成」の手法を提案しシステム全体を実装

次に読むべき論文は?

NULL