u++の備忘録

【論文メモ】検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

自然言語処理論文メモ

検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

尾崎諒介, 前田竜冶 (福井大), 宇津呂武仁 (筑波大), 村瀬一之 (福井大)
言語処理学会第24回年次大会(NLP2018)
http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/E5-4.pdf

どんなもの？

機械学習を用いたフェイクニュース自動検出の研究が盛んになりつつあるが，未だフェイクニュース検出タスクのための実用的なデータセットが豊富にあるとは言いがたい
有用なデータセットの作成を目的として，人間が実際に行うフェイクニュース検出の過程を模倣して，検索エンジンを利用して収集した外部ソースからの情報を用いてフェイクニュース検出を行う方式により，フェイクニュース検出タスク用のデータセットを作成する手法を提案し，その手法を用いて実際に小規模データセットを作成した

先行研究と比べてどこがすごい？

「含意関係認識」タスクのデータセットは存在するが、データ内の語彙に大きな偏りがありデータ作成時にバイアスを含んでいる
フェイクニュース検出のためのデータセットも存在するが、ラベルの不均衡問題がある

技術や手法のキモはどこ？

人間によるフェイクニュース判定の手順を模倣する方式を採用

ステートメントを検索エンジンで検索する
検索結果ページ一つ一つの本文の主張とステートメント間の含意関係を True，False，関連するが判定不可，無関係の 4 値に分類する
- 4人の分類判断の多数決でステートメント・検索結果ページ間のラベルを決定する
それぞれの分類をもとに最終的にステートメントがフェイクニュースかそうでないか判断をする

どうやって有効だと検証した？

PolitiFact ラベル (True か Pants on fire)との一致具合で評価
- PolitiFactは主にアメリカの政治にまつわる発言や事柄 (ステートメント) についての信憑性の事実確認を行うサイト
38ステートメントの検索結果ページ間多数決ラベルの内，35ステートメントがPolitiFactラベルと一致した

議論はある？

できなかった3ステートメントについて分析
- 検索された結果ページにフェイクニュースの記事のほうが多く存在してしまう場合
- 2つの立場から真偽を判定でき，1 つの立場では真であり，もうひとつの立場では偽である場合

次に読むべき論文は？

NULL