関連記事判定のためのニュース記事キーフレーズ抽出
- 大倉俊平, 小野真吾 (ヤフー)
- 言語処理学会第24回年次大会(NLP2018)
- http://www.anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A7-4.pdf
どんなもの?
- 以前に報道された事柄を前提とする「続報記事」について、関連記事を自動判定する仕組みを作成したい
- 学習データを用意して直接学習させるのは現実的ではない
- 多岐にわたる内容の記事に対して学習データを用意するのが困難
- 学習時に存在しなかった新規の話題が次々と現れ判定器がすぐに劣化すると想定される
- そこで、教師なしのキーフレーズ抽出法を用いて記事の主題を抽出し、そのフレーズを関連記事抽出に応用する
- 学習データを用意して直接学習させるのは現実的ではない
- キーフレーズには「文書の内容を端的に表現」「文書の検索を容易にする」の役割がある
- 本稿の文脈では後者の役割が大切で、特に関連記事が同一のキーフレーズを共有しているという性質(キーフレーズ共有性)が重要である
- 本稿では、キーフレーズ共有性に着目した、明示的な正解を用いないキーフレーズ抽出法と評価尺度を提案
- 提案する評価尺度によると従来の抽出法には課題があると示す
- その課題を改善する新しい抽出法を提案
先行研究と比べてどこがすごい?
- 従来のキーフレーズ抽出手法は、著者などが設定したキーフレーズの再現性で評価されることが多い[3]
- 著者らが付与するキーフレーズはキーフレーズ共有性を重要視していない
- 特に内容を端的に表現することを重視してキーフレーズをつけた場合、関連する文書同士でも選ばれるキーフレーズが異なる場合が多く、本稿の目的にはそぐわない
第2章 キーフレーズ共有性の評価
- データセット:Yahoo!トピックス
- あるキーフレーズ抽出法で各記事にそれぞれキーフレーズを付与した時、同一トピックの記事が同じキーフレーズを共有していれば、その抽出法は関連記事抽出に使いやすいフレーズを出力できていると見なす
既存の六つの教師なしキーフレーズ抽出法
抽出法 | 説明 |
---|---|
TF-All | 全ての品詞を含む全単語から,記事中の出現頻度が高い順にキーフレーズとする |
TF-Noun | TF-Allで品詞を名詞だけに制限 |
TF-IDF-Noun | 各名詞の出現頻度に逆記事頻度(IDF)をかけ,値が高い順にキーフレーズとする |
TF-IDF-Phrase | キーフレーズ候補を連続する名詞からなるフレーズとする.フレーズを構成する各名詞毎に TF-IDF を計算しその和をスコアとし、高い順にキーフレーズとする |
PosRank | グラフベースの教師なしキーフレーズ抽出法である PositionPank[1] を用いたもの.キーフレーズ候補は「[形容詞]*[名詞]+」の形をしたフレーズである.ウィンドウサイズは5とした |
PosRank-Noun | PosRank において,キーフレーズ候補を名詞 1 単語のみとしたもの |
技術や手法のキモはどこ?
- Recallが低くなる問題を解決するため、類似記事を参照する方法として、TF-IDFを改良した手法を提案
- 記事内の単語の出現頻度(TF)に変えて、類似記事での出現記事数(Neighborhood Frequency, NF)を用いる
- この変更で、著者特有の表現などその記事においてのみ使用される表現がフレーズとして抽出されることを避けられる
- 一方で、1記事のキーフレーズ抽出にD全体の情報が必要になるため、計算コストは高くなる
どうやって有効だと検証した?
- 評価用の記事とは別のニュース記事50万件でRNNを学習
- 第2章と同様の評価を実施
- NF-IDFで、既存手法に対してRecallもPrecisionも大きく向上した
- BiGRU-CRFでは、NF-IDFも上回る結果を示した
議論はある?
- BiGRU-CRFでは、NF-IDFと同様の性能を期待していたが、大きく上回る結果を示した
- フレーズの周辺情報による汎化と,CRFの確率モデルの部分がNF-IDFの不安定さを吸収できたためではないかと考えられる
次に読むべき論文は?
[1] C. Florescu and C. Caragea. Positionrank: An unsupervised approach to keyphrase extraction from scholarly documents. In Proceedings of the 55th Annual Meeting of the ACL, volume 1, pages 1105–1115, 2017.