u++の備忘録

【論文メモ】検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

どんなもの?

先行研究と比べてどこがすごい?

  • 「含意関係認識」タスクのデータセットは存在するが、データ内の語彙に大きな偏りがありデータ作成時にバイアスを含んでいる
  • フェイクニュース検出のためのデータセットも存在するが、ラベルの不均衡問題がある

技術や手法のキモはどこ?

  1. ステートメント検索エンジンで検索する
  2. 検索結果ページ一つ一つの本文の主張とステートメント間の含意関係を True,False,関連するが判定不可,無関係の 4 値に分類する
    • 4人の分類判断の多数決でステートメント・検索結果ページ間のラベルを決定する
  3. それぞれの分類をもとに最終的にステートメントフェイクニュースかそうでないか判断をする

どうやって有効だと検証した?

  • PolitiFact ラベル (True か Pants on fire)との一致具合で評価
    • PolitiFactは主にアメリカの政治にまつわる発言や事柄 (ステートメント) についての信憑性の事実確認を行うサイト
  • 38ステートメントの検索結果ページ間多数決ラベルの内,35ステートメントがPolitiFactラベルと一致した

議論はある?

  • できなかった3ステートメントについて分析
    • 検索された結果ページにフェイクニュースの記事のほうが多く存在してしまう場合
    • 2つの立場から真偽を判定でき,1 つの立場では真であり,もうひとつの立場では偽である場合

次に読むべき論文は?

NULL