u++の備忘録

【論文メモ】ブートストラップ法による科学ニュース記事からの雑誌名抽出

ブートストラップ法による科学ニュース記事からの雑誌名抽出

どんなもの?

日本語の科学ニュース記事では,研究成果がわかりやすく述べられるが,出典となる文献情報は明記されない傾向にある.このことは,読者が研究の詳細を知ることへの障壁となっている.一方,研究内容が掲載された雑誌名は記事中に明記されることが多く,雑誌名を自動抽出することで対象の文献情報を探索する手がかりが得られる.

  • 日本語の科学ニュース記事からの雑誌名抽出に取り組み,得られた雑誌名をリスト化する
  • 雑誌名が特定の文脈に出現しやすいという仮定を立て,雑誌名抽出に対してこの仮説を裏付けた

先行研究と比べてどこがすごい?

  • 代表的な先行研究では,ブートストラップ法を採用しているが,固有表現抽出のパターンマッチに利用するパターンは左右の文脈のうち,どちらか一方である
  • 本研究で提案する雑誌名抽出は,雑誌名の両側から学習した文脈をパターンとして利用するところが特徴である
    • 日本語ならではの特徴

f:id:upura:20180506001829p:plain

技術や手法のキモはどこ?

  • 雑誌名は多種多様で,外国語の雑誌名を日本語の記事で掲載する場合は外来語として扱わず,発音に文字を当てはめて翻訳することが多い
    • 記事を書いた著者によって雑誌名の表記ゆれが起こる
  • ブートストラップ法[1, 2, 3] に基づいて科学ニュース記事からの雑誌名を抽出する
    • ブートストラップ法は,人手で付与したシードと呼ばれる少数の固有表現を教師データとして,固有表現の抽出と辞書の拡充を交互に繰り返す
    • 少数の固有表現をもとに多くの固有表現を抽出できる

どうやって有効だと検証した?

ウェブから収集した科学ニュース記事から雑誌名を抽出し,提案手法の性能を定量的に評価

f:id:upura:20180506003321p:plain

  • 反復の1回目では,適合率が 0.8 以上と高く,部分再現率も 0.5 を超えていた
    • 雑誌名を抽出する手がかりとして左右バイグラムを使うことは有効である
  • 反復の 2 回目では新たに得られた雑誌名が半減し,適合率が 0.2 ほど低下したにもかかわらず部分再現率はほとんど向上しなかった
    • ブートストラップ法で高い F 値を維持したまま,雑誌名を抽出するためには工夫が必要ということが示唆された

議論はある?

f:id:upura:20180506003614p:plain

次に読むべき論文は?

ブートストラップ法
[1] E. Riloff and R. Jones. Learning dictionaries for information extraction by multi-level bootstrapping. In AAAI, pp. 474–479, 1999.