自然言語処理×ジャーナリズムな研究まとめ ~ 言語処理学会(NLP2018)より ~
今年のGWも終わりますね。僕は若者らしく、今年3月の言語処理学会の論文を読み漁っていました*1。
言語処理学会第24回年次大会(NLP2018) の発表論文集を一般公開しました。年次大会参加者だけでなく、すべての方が登録等一切なしですべての発表論文PDFをご覧いただけます。この公開姿勢を評価いただき、ぜひ学会への入会という形でご支援をお願いします。https://t.co/Lc3kuE8NcT
— 山本 和英 (@y8o) March 26, 2018
個人的に興味のあるジャーナリズム絡みの論文を中心に総計12本読んだので、下記の記事からタイトルを拝借する形で、一つの記事にまとめておきます。
- 新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて―
- 関連記事判定のためのニュース記事キーフレーズ抽出
- 経済記事からの不祥事報道検知
- 決算短信からの事業セグメント情報抽出
- ブートストラップ法による科学ニュース記事からの雑誌名抽出
- 検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成
- ニュースからのトピックに関するストーリーラインの生成
- 複数エンコーダを用いたヤフートピックス見出し候補生成
- 会話によるニュース記事伝達のための間の調整
- プレイデータからのサッカーの速報テキスト生成
- ファクトチェックを必要とするニュース記事の探索の支援
- Experiment on Using Topic Sentence for Neural News Headline Generation
新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて―
概要
フェイクニュース検出に向けた調査の研究。「新聞記事に掲載された政治家の発言の引用」と「地方議会会議録」を逐一比較していき、約95%はBoWなどの語句レベルの一致で推定できるとまとめている。
所感
BoWという単純な仕組みで、結構な高割合が評価できるというのは意外。ただよく考えると、新聞記事でそこまで凝った文章加工はしないので妥当な数字な気も。
関連記事判定のためのニュース記事キーフレーズ抽出
概要
ニュースサイトで良くある「関連記事」を自動で導出するタスク。「キーフレーズ共有性」という新たな評価尺度と、その概念に基づく抽出法を提案している。
所感
計算量の節約のためにRNNによる近似を導入したら、性能も上がったという報告が興味深い(本論文の考察でも理由は十分に掘り下げられていない)。
経済記事からの不祥事報道検知
概要
経済記事を「不祥事」に関するものか否かで二値分類するシステムの開発。アルゴリズムはロジスティクス回帰とN-gram。精度を追い求めるだけでなく、解釈性・頑健性などを深く議論している。
所感
機械学習を実システムに導入する際のTipsのような論文。
決算短信からの事業セグメント情報抽出
概要
決算短信特有の言語的な特徴を考慮した「事業セグメント情報抽出手法」を提案し、その有用性について実データを用いて評価。
所感
ドメイン知識をフル活用して、実直にタスクに取り組んでいる。
ブートストラップ法による科学ニュース記事からの雑誌名抽出
概要
雑誌名が特定の文脈に出現しやすいという仮定を立て、雑誌名の両側から学習した文脈をパターンとして利用しブートストラップ法で雑誌名を抽出
所感
論文の第一文のこの問題の解消が根本的な解決策ではないかと思ったり。。。
日本語の科学ニュース記事では,研究成果がわかりやすく述べられるが,出典となる文献情報は明記されない傾向にある.
検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成
概要
フェイクニュース検出に関して、人間と同じやり方(検索エンジンによる上位検索ページを情報源として判断)をコンピュータで再現しようとした論文。
所感
うまくいかなかった例を分析した結果「検索された結果ページにフェイクニュースの記事のほうが多く存在してしまう場合」が挙げられていて、そうだよなあと思った。このアプローチだとどうやっても人間を大きく超える性能は出せないだろうが、目的は「データセット作成」に置いているので悪くもない気もする。
upura.hatenablog.com
ニュースからのトピックに関するストーリーラインの生成
概要
ニュースコーパスからトピック (知りたい事柄) に関連するテーマを抽出し,そのテーマに関連する文が時系列順に並んだ文集合 (ストーリーライン) を出力するシステムを提案。
所感
「ストーリーラインの生成」というタスクを、細かいタスクに分解している。他の研究成果を動員して実現する応用研究のような立ち位置。
複数エンコーダを用いたヤフートピックス見出し候補生成
概要
「記事タイトル」と「記事リード文」を入力とし、エンコーダ・デコーダの枠組みからトピックス見出しを生成する手法を提案。
所感
単に先行研究をサービスに適用するだけでなく、技術的な修正もしているのが良い。
会話によるニュース記事伝達のための間の調整
概要
会話によるニュース記事伝達において、割り込みを許容しながら快適なリズムで会話を進行させるための間の調整について検討。テクノロジー系のニュース記事 100 個を人手で要約・口語化し、実際に声優に話してもらいコーパスを作成。双方向 LSTMやBayesianRidgeモデルで学習させた。
所感
スマートスピーカーが流行っている中、ある意味新しいジャーナリズムの形を模索する論文と言っても良い気がする。
プレイデータからのサッカーの速報テキスト生成
「選手名やチーム名を汎化タグに変換」「単語bigramを1つの単語として結合」の工夫で、encoder-decoder[6]モデルの性能が向上。
所感
直感的にも性能改善しそうな前処理をすることで、実際に性能が改善しており、腑に落ちやすかった。
ファクトチェックを必要とするニュース記事の探索の支援
概要
ファクトチェックの必要性を示唆する情報(=「端緒情報」)の探索を自動化し,人手による要検証記事探索作業を技術的に支援する仕組みを構築。
所感
うまくいかなかった例を見ていると、人間の発言をコンピュータに解釈させることの難しさを改めて実感する。
Experiment on Using Topic Sentence for Neural News Headline Generation
概要
encoder-decoderモデルを用いたニュースの見出し生成タスクで、第一文ではなく「トピックセンテンス」を使った場合の影響を調べる。第一文に加えてトピックセンテンスも利用した方が性能が上がった。
所感
多様な情報を利用した方が精度は出そうなので、最後はどこかで計算コストと性能のトレード・オフみたいな話に帰着しそう。
*1:その他にKaggleもやっていました