u++の備忘録

【論文メモ】ファクトチェックを必要とするニュース記事の探索の支援

ファクトチェックを必要とするニュース記事の探索の支援

どんなもの?

  • ファクトチェックの必要性を示唆する情報(=「端緒情報」)の探索を自動化し,人手による要検証記事探索作業を技術的に支援する仕組みを構築
    • Twitterの投稿を対象に,そこから端緒情報の可能性が高い投稿を自動抽出し,それらの情報に基づいてニュース記事を検証必要度の観点からランキングする

先行研究と比べてどこがすごい?

インターネット上の誤情報を検出する研究は行われているものの [1, 2, 9],幅広いドメインから端緒情報を抽出し,要検証記事を収集する研究は本研究が初

技術や手法のキモはどこ?

f:id:upura:20180506203932p:plain

どうやって有効だと検証した?

データセット

  • 朝日新聞デジタル,産経ニュース,日経電子版,毎日新聞のニュース・情報サイト,YOMIURI ONLINEのいずれかの媒体の記事 URL を含むツイートを 20,000 件抽出
    • 人手で各ツイートが端緒情報であるか判定
    • 正例:606 件(全体の 3.03%)
    • 負例:正例でなく,bot によるツイートや,記事の本文やタイトルを引用しているだけでないツイートのうち 2,851件

分類器(5種類)

f:id:upura:20180506205124p:plain

議論はある?

f:id:upura:20180506205429p:plain

  1. 単なる皮肉
  2. 指摘の対象が記事でなく政府
  3. 「嘘」は日常で使いやすい

次に読むべき論文は?

NULL

【論文メモ】プレイデータからのサッカーの速報テキスト生成

プレイデータからのサッカーの速報テキスト生成

どんなもの?

www.nikkei.com

  • サッカー選手のプレイデータから速報テキストを生成

先行研究と比べてどこがすごい?

  • テキスト生成課題で広く用いられる encoder-decoder[6]モデルは, 選手名やチーム名のような低頻度な単語に強く影響を受け,プレイデータについて正しく言及するようなテキストが出力できないという問題点があった
  • 提案手法では出力となる速報テキストにおける言語表現を汎化した上で学習し,それらの復元方法も同時に学習することで,プレイデータにより即した出力結果を得た

技術や手法のキモはどこ?

  • encoder-decoder[6]モデルを拡張
    • 選手名やチーム名といった多様な入力を,速報テキスト中での出現順に番号付けし汎化タグに変換
    • 過学習を避けるため,学習データセット中の頻度が上位 100 件の単語 bigram を 1 つの単語として扱う

どうやって有効だと検証した?

  • Premier League1の 15/16 シーズンの全試合のデータを利用

f:id:upura:20180506192458p:plain

議論はある?

f:id:upura:20180506192912p:plain

汎化タグに変換するだけでなく,単語の結合も行うことで,生成文の質が上がっていた

次に読むべき論文は?

encoder-decoder[6]モデル
[6] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Sequence to sequence learning with neural networks. arXiv:1409.3215, 2014.

【論文メモ】会話によるニュース記事伝達のための間の調整

会話によるニュース記事伝達のための間の調整

どんなもの?

  • 会話によるニュース記事伝達において,割り込みを許容しながら快適なリズムで会話を進行させるための間の調整について検討
    • ユーザーが理解しやすく,発話中でも割り込みやすい間の実現を目指す

先行研究と比べてどこがすごい?

システム発話の工夫によって相互行為を活性化させようとする観点では,聞き手からの相槌やうなずきなどを誘発する研究が行われているが,これも韻律制御に留まっており,間の制御までは扱っていない [3]

技術や手法のキモはどこ?

  • コーパスの作成
    • テクノロジー系のニュース記事 100 個を人手で要約・口語化し,発話のシナリオを作成した.このシナリオを女性声優に発話させ,その発話音声を収録した
  • 発話内文節間の間の推定
    • 双方向 LSTMで学習
  • 発話間の間の推定
    • BayesianRidgeモデル

f:id:upura:20180506133233p:plain
f:id:upura:20180506133422p:plain
f:id:upura:20180506133605p:plain

どうやって有効だと検証した?

  • 音声合成器として AITalk(話者:のぞみ)を使用し,間の調整を行ったときと行わなかったときでどちらが「質問しやすかったか」「相槌を打ちやすかったか」「頭に入りやすかったか」について評価を行った
  • どちらについても調整を行った間の方が良いという結果が得られた

議論はある?

  • 個人ごとの間の調整や多重タスク下での間の取り方について検討
  • 抑揚の付け方や話速といった韻律情報を総合的に制御できる仕組みについても検討

次に読むべき論文は?

NULL

【論文メモ】複数エンコーダを用いたヤフートピックス見出し候補生成

複数エンコーダを用いたヤフートピックス見出し候補生成

どんなもの?

  • Yahoo! ニュース・トピックスの見出し(13.5文字以内)の候補を自動生成
  • エンコーダ・デコーダの枠組みを利用
    • トピックスページ中の記事タイトルと記事リード文を同時に利用するため,エンコーダ・デコーダの枠組みを拡張し,複数のエンコーダ出力を用いてトピックス見出しを生成する手法を提案

先行研究と比べてどこがすごい?

  • Multimodal Attention モデル
    • Hori らによる動画の説明文生成に関する研究 [5]
    • 映像用のエンコーダ,音声用のエンコーダ等を利用して動画の説明文をエンコーダ・デコーダの枠組みで生成
    • エンコーダごとにスカラーの重みを動的に計算し,その重み付き和ベクトルを利用することで,精度が向上
    • 重みをスカラー値で計算し,これを掛けることによって重み付き和を計算
  • 本研究
    • 要素ごとに重みを計算できれば,より適切な特徴を表現できると予想し,複数エンコーダの出力を統合する手法を提案

技術や手法のキモはどこ?

  • 複数エンコーダを利用する「Multimodal Attention モデル」の改良
  • 入力
    • 記事リード文
    • 記事タイトル
  • 出力
  • トピックス見出し

どうやって有効だと検証した?

  • Yahoo!ニュース・トピックスで掲載されたニュース記事を利用
  • 要約タスクの評価指標として利用されている ROUGE値と、人手で評価(1記事当たり10人、平均を採用)

f:id:upura:20180506132051p:plain

議論はある?

実験結果の細部について議論

f:id:upura:20180506132206p:plain

次に読むべき論文は?

  • Multimodal Attention モデル
    • [5] Chiori Hori, Takaaki Hori, Teng-Yok Lee, Ziming Zhang, Bret Harsham, John R. Hershey, Tim K. Marks, and Kazuhiko Sumi. Attention-Based Multimodal Fusion for Video Description. In ICCV, 2017.
  • Query-based Attention モデル
    • [4] Preksha Nema, Mitesh M. Khapra, Anirban Laha, and Balaraman Ravindran. Diversity driven attention model for query-based abstractive summarization. In ACL, pp. 1063–1072, 2017.

【論文メモ】ニュースからのトピックに関するストーリーラインの生成

ニュースからのトピックに関するストーリーラインの生成

どんなもの?

ニュースコーパスからトピック (知りたい事柄) に関連するテーマを抽出し,そのテーマに関連する文が時系列順に並んだ文集合 (ストーリーライン) を出力するシステムを提案

先行研究と比べてどこがすごい?

  • 複数の文からなる文書に対して,あるキーワードに基づいて重要文抽出を行う [5] 試みはあるが,出力される文集合は 1 つのみである
  • 知りたい事柄についての情報の中には様々なテーマがあるため,テーマを自動で抽出し,文集合を複数出力することが望ましい

技術や手法のキモはどこ?

f:id:upura:20180506114027p:plain

文集合からの重要語の抽出方法

以下の式で重要度を計算し,上位 N 語を重要語とする.ただし, R_\omegaは,単語 \omegaの重要度(文集合における \omegaの出現頻度を,コーパス全体における \omegaの出現頻度で正規化したもの)

 R_\omega=\frac{c_\omega}{c_{all}}\cdot\frac{C_\omega}{C_{all}}

どうやって有効だと検証した?

  • 人による評価と比較
  • 予備実験では筆者と別の3人の計4人で実施し、Precision, Recall, F値に個人差がないと確認
  • 本実験では筆者のみで実施

f:id:upura:20180506114601p:plain

議論はある?

  • 適切な文集合が一定の Precision で得られることを示し,Recall を改善する課題を明確化した
  • 本稿では触れていない「タイトル生成」の手法を提案しシステム全体を実装

次に読むべき論文は?

NULL

【論文メモ】検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

どんなもの?

先行研究と比べてどこがすごい?

  • 「含意関係認識」タスクのデータセットは存在するが、データ内の語彙に大きな偏りがありデータ作成時にバイアスを含んでいる
  • フェイクニュース検出のためのデータセットも存在するが、ラベルの不均衡問題がある

技術や手法のキモはどこ?

  1. ステートメント検索エンジンで検索する
  2. 検索結果ページ一つ一つの本文の主張とステートメント間の含意関係を True,False,関連するが判定不可,無関係の 4 値に分類する
    • 4人の分類判断の多数決でステートメント・検索結果ページ間のラベルを決定する
  3. それぞれの分類をもとに最終的にステートメントフェイクニュースかそうでないか判断をする

どうやって有効だと検証した?

  • PolitiFact ラベル (True か Pants on fire)との一致具合で評価
    • PolitiFactは主にアメリカの政治にまつわる発言や事柄 (ステートメント) についての信憑性の事実確認を行うサイト
  • 38ステートメントの検索結果ページ間多数決ラベルの内,35ステートメントがPolitiFactラベルと一致した

議論はある?

  • できなかった3ステートメントについて分析
    • 検索された結果ページにフェイクニュースの記事のほうが多く存在してしまう場合
    • 2つの立場から真偽を判定でき,1 つの立場では真であり,もうひとつの立場では偽である場合

次に読むべき論文は?

NULL

【論文メモ】ブートストラップ法による科学ニュース記事からの雑誌名抽出

ブートストラップ法による科学ニュース記事からの雑誌名抽出

どんなもの?

日本語の科学ニュース記事では,研究成果がわかりやすく述べられるが,出典となる文献情報は明記されない傾向にある.このことは,読者が研究の詳細を知ることへの障壁となっている.一方,研究内容が掲載された雑誌名は記事中に明記されることが多く,雑誌名を自動抽出することで対象の文献情報を探索する手がかりが得られる.

  • 日本語の科学ニュース記事からの雑誌名抽出に取り組み,得られた雑誌名をリスト化する
  • 雑誌名が特定の文脈に出現しやすいという仮定を立て,雑誌名抽出に対してこの仮説を裏付けた

先行研究と比べてどこがすごい?

  • 代表的な先行研究では,ブートストラップ法を採用しているが,固有表現抽出のパターンマッチに利用するパターンは左右の文脈のうち,どちらか一方である
  • 本研究で提案する雑誌名抽出は,雑誌名の両側から学習した文脈をパターンとして利用するところが特徴である
    • 日本語ならではの特徴

f:id:upura:20180506001829p:plain

技術や手法のキモはどこ?

  • 雑誌名は多種多様で,外国語の雑誌名を日本語の記事で掲載する場合は外来語として扱わず,発音に文字を当てはめて翻訳することが多い
    • 記事を書いた著者によって雑誌名の表記ゆれが起こる
  • ブートストラップ法[1, 2, 3] に基づいて科学ニュース記事からの雑誌名を抽出する
    • ブートストラップ法は,人手で付与したシードと呼ばれる少数の固有表現を教師データとして,固有表現の抽出と辞書の拡充を交互に繰り返す
    • 少数の固有表現をもとに多くの固有表現を抽出できる

どうやって有効だと検証した?

ウェブから収集した科学ニュース記事から雑誌名を抽出し,提案手法の性能を定量的に評価

f:id:upura:20180506003321p:plain

  • 反復の1回目では,適合率が 0.8 以上と高く,部分再現率も 0.5 を超えていた
    • 雑誌名を抽出する手がかりとして左右バイグラムを使うことは有効である
  • 反復の 2 回目では新たに得られた雑誌名が半減し,適合率が 0.2 ほど低下したにもかかわらず部分再現率はほとんど向上しなかった
    • ブートストラップ法で高い F 値を維持したまま,雑誌名を抽出するためには工夫が必要ということが示唆された

議論はある?

f:id:upura:20180506003614p:plain

次に読むべき論文は?

ブートストラップ法
[1] E. Riloff and R. Jones. Learning dictionaries for information extraction by multi-level bootstrapping. In AAAI, pp. 474–479, 1999.