2018-05-06 【論文メモ】検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成 自然言語処理 論文メモ 検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成 尾崎諒介, 前田竜冶 (福井大), 宇津呂武仁 (筑波大), 村瀬一之 (福井大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/E5-4.pdf どんなもの? 機械学習を用いたフェイクニュース自動検出の研究が盛んになりつつあるが,未だフェイクニュース検出タスクのための実用的なデータセットが豊富にあるとは言いがたい 有用なデータセットの作成を目的として,人間が実際に行うフェイクニュース検出の過程を模倣して,検索エンジンを利用して収集した外部ソースからの情報を用いてフェイクニュース検出を行う方式により,フェイクニュース検出タスク用のデータセットを作成する手法を提案し,その手法を用いて実際に小規模データセットを作成した 先行研究と比べてどこがすごい? 「含意関係認識」タスクのデータセットは存在するが、データ内の語彙に大きな偏りがありデータ作成時にバイアスを含んでいる フェイクニュース検出のためのデータセットも存在するが、ラベルの不均衡問題がある 技術や手法のキモはどこ? 人間によるフェイクニュース判定の手順を模倣する方式を採用 ステートメントを検索エンジンで検索する 検索結果ページ一つ一つの本文の主張とステートメント間の含意関係を True,False,関連するが判定不可,無関係の 4 値に分類する 4人の分類判断の多数決でステートメント・検索結果ページ間のラベルを決定する それぞれの分類をもとに最終的にステートメントがフェイクニュースかそうでないか判断をする どうやって有効だと検証した? PolitiFact ラベル (True か Pants on fire)との一致具合で評価 PolitiFactは主にアメリカの政治にまつわる発言や事柄 (ステートメント) についての信憑性の事実確認を行うサイト 38ステートメントの検索結果ページ間多数決ラベルの内,35ステートメントがPolitiFactラベルと一致した 議論はある? できなかった3ステートメントについて分析 検索された結果ページにフェイクニュースの記事のほうが多く存在してしまう場合 2つの立場から真偽を判定でき,1 つの立場では真であり,もうひとつの立場では偽である場合 次に読むべき論文は? NULL