u++の備忘録

【論文メモ】関連記事判定のためのニュース記事キーフレーズ抽出

関連記事判定のためのニュース記事キーフレーズ抽出

どんなもの?

  • 以前に報道された事柄を前提とする「続報記事」について、関連記事を自動判定する仕組みを作成したい
    • 学習データを用意して直接学習させるのは現実的ではない
      • 多岐にわたる内容の記事に対して学習データを用意するのが困難
      • 学習時に存在しなかった新規の話題が次々と現れ判定器がすぐに劣化すると想定される
    • そこで、教師なしのキーフレーズ抽出法を用いて記事の主題を抽出し、そのフレーズを関連記事抽出に応用する
  • キーフレーズには「文書の内容を端的に表現」「文書の検索を容易にする」の役割がある
    • 本稿の文脈では後者の役割が大切で、特に関連記事が同一のキーフレーズを共有しているという性質(キーフレーズ共有性)が重要である
  • 本稿では、キーフレーズ共有性に着目した、明示的な正解を用いないキーフレーズ抽出法と評価尺度を提案
    • 提案する評価尺度によると従来の抽出法には課題があると示す
    • その課題を改善する新しい抽出法を提案

先行研究と比べてどこがすごい?

  • 従来のキーフレーズ抽出手法は、著者などが設定したキーフレーズの再現性で評価されることが多い[3]
    • 著者らが付与するキーフレーズはキーフレーズ共有性を重要視していない
    • 特に内容を端的に表現することを重視してキーフレーズをつけた場合、関連する文書同士でも選ばれるキーフレーズが異なる場合が多く、本稿の目的にはそぐわない

第2章 キーフレーズ共有性の評価

  • データセットYahoo!トピックス
    • Yahoo!ニュースに入稿される記事から、編集者が毎日100件前後抽出して作成(例:「トランプ大統領来日」「台風21号」「衆議院選挙」)
    • 2017年10〜12月の記事のうち、2記事以上を含む66トピック1716記事を利用
  • あるキーフレーズ抽出法で各記事にそれぞれキーフレーズを付与した時、同一トピックの記事が同じキーフレーズを共有していれば、その抽出法は関連記事抽出に使いやすいフレーズを出力できていると見なす
既存の六つの教師なしキーフレーズ抽出法
抽出法 説明
TF-All 全ての品詞を含む全単語から,記事中の出現頻度が高い順にキーフレーズとする
TF-Noun TF-Allで品詞を名詞だけに制限
TF-IDF-Noun 各名詞の出現頻度に逆記事頻度(IDF)をかけ,値が高い順にキーフレーズとする
TF-IDF-Phrase キーフレーズ候補を連続する名詞からなるフレーズとする.フレーズを構成する各名詞毎に TF-IDF を計算しその和をスコアとし、高い順にキーフレーズとする
PosRank グラフベースの教師なしキーフレーズ抽出法である PositionPank[1] を用いたもの.キーフレーズ候補は「[形容詞]*[名詞]+」の形をしたフレーズである.ウィンドウサイズは5とした
PosRank-Noun PosRank において,キーフレーズ候補を名詞 1 単語のみとしたもの
評価結果

f:id:upura:20180505144128p:plain

K: 抽出キーフレーズ数, P: Precision, R: Recall, F: F値

技術や手法のキモはどこ?

  • Recallが低くなる問題を解決するため、類似記事を参照する方法として、TF-IDFを改良した手法を提案
    • 記事内の単語の出現頻度(TF)に変えて、類似記事での出現記事数(Neighborhood Frequency, NF)を用いる
    • この変更で、著者特有の表現などその記事においてのみ使用される表現がフレーズとして抽出されることを避けられる
  • 一方で、1記事のキーフレーズ抽出にD全体の情報が必要になるため、計算コストは高くなる
    • RNNを用いて事前にD全体の情報を用いてモデルを構成しておき、抽出時には対象記事dのみを用いてNF-IDFを推定する手法も実装した(BiGRU-CRF)
      • 学習用記事群Dに対して,NF-IDFを用いて記事毎に各10フレーズを抽出
      • それぞれの記事でフレーズとして抽出された箇所に,固有表現抽出の学習で用いられるBIESOタグ[5]を用いてタギング
      • 2で得られたタグを学習データとし,入力単語列からタグ列を推定するモデルを学習
      • フレーズ抽出時には,学習されたモデルに文章を入力し,キーフレーズとしてタギングされる確率が高い箇所から順にキーフレーズとして出力

どうやって有効だと検証した?

  • 評価用の記事とは別のニュース記事50万件でRNNを学習
  • 第2章と同様の評価を実施
    • NF-IDFで、既存手法に対してRecallもPrecisionも大きく向上した
    • BiGRU-CRFでは、NF-IDFも上回る結果を示した

f:id:upura:20180505150629p:plain

議論はある?

  • BiGRU-CRFでは、NF-IDFと同様の性能を期待していたが、大きく上回る結果を示した
    • フレーズの周辺情報による汎化と,CRFの確率モデルの部分がNF-IDFの不安定さを吸収できたためではないかと考えられる

次に読むべき論文は?

[1] C. Florescu and C. Caragea. Positionrank: An unsupervised approach to keyphrase extraction from scholarly documents. In Proceedings of the 55th Annual Meeting of the ACL, volume 1, pages 1105–1115, 2017.