自然言語処理×ジャーナリズムな研究まとめ ~ 言語処理学会(NLP2018)より ~

今年のGWも終わりますね。僕は若者らしく、今年3月の言語処理学会の論文を読み漁っていました*1。

言語処理学会第24回年次大会(NLP2018) の発表論文集を一般公開しました。年次大会参加者だけでなく、すべての方が登録等一切なしですべての発表論文PDFをご覧いただけます。この公開姿勢を評価いただき、ぜひ学会への入会という形でご支援をお願いします。https://t.co/Lc3kuE8NcT
— 山本和英 (@y8o) March 26, 2018

個人的に興味のあるジャーナリズム絡みの論文を中心に総計12本読んだので、下記の記事からタイトルを拝借する形で、一つの記事にまとめておきます。

data.gunosy.io

新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて―
関連記事判定のためのニュース記事キーフレーズ抽出
経済記事からの不祥事報道検知
決算短信からの事業セグメント情報抽出
ブートストラップ法による科学ニュース記事からの雑誌名抽出
検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成
ニュースからのトピックに関するストーリーラインの生成
複数エンコーダを用いたヤフートピックス見出し候補生成
会話によるニュース記事伝達のための間の調整
プレイデータからのサッカーの速報テキスト生成
ファクトチェックを必要とするニュース記事の探索の支援
Experiment on Using Topic Sentence for Neural News Headline Generation

新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて―

概要
フェイクニュース検出に向けた調査の研究。「新聞記事に掲載された政治家の発言の引用」と「地方議会会議録」を逐一比較していき、約95%はBoWなどの語句レベルの一致で推定できるとまとめている。

所感
BoWという単純な仕組みで、結構な高割合が評価できるというのは意外。ただよく考えると、新聞記事でそこまで凝った文章加工はしないので妥当な数字な気も。

upura.hatenablog.com

経済記事からの不祥事報道検知

概要
経済記事を「不祥事」に関するものか否かで二値分類するシステムの開発。アルゴリズムはロジスティクス回帰とN-gram。精度を追い求めるだけでなく、解釈性・頑健性などを深く議論している。

所感
機械学習を実システムに導入する際のTipsのような論文。

upura.hatenablog.com

決算短信からの事業セグメント情報抽出

概要
決算短信特有の言語的な特徴を考慮した「事業セグメント情報抽出手法」を提案し、その有用性について実データを用いて評価。

所感
ドメイン知識をフル活用して、実直にタスクに取り組んでいる。

upura.hatenablog.com

ブートストラップ法による科学ニュース記事からの雑誌名抽出

概要
雑誌名が特定の文脈に出現しやすいという仮定を立て、雑誌名の両側から学習した文脈をパターンとして利用しブートストラップ法で雑誌名を抽出

所感
論文の第一文のこの問題の解消が根本的な解決策ではないかと思ったり。。。

日本語の科学ニュース記事では，研究成果がわかりやすく述べられるが，出典となる文献情報は明記されない傾向にある．

upura.hatenablog.com

検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

概要
フェイクニュース検出に関して、人間と同じやり方（検索エンジンによる上位検索ページを情報源として判断）をコンピュータで再現しようとした論文。

所感
うまくいかなかった例を分析した結果「検索された結果ページにフェイクニュースの記事のほうが多く存在してしまう場合」が挙げられていて、そうだよなあと思った。このアプローチだとどうやっても人間を大きく超える性能は出せないだろうが、目的は「データセット作成」に置いているので悪くもない気もする。
upura.hatenablog.com