論文名
新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて―
- 木村泰知, 戸嶋咲穂, 渋木英潔
- 言語処理学会 第24回年次大会 発表論文集 (2018年3月)
- http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/B3-2.pdf
どんなもの?
フェイクニュースの検出に関して、例えば「○○議員が××と発言した」というニュースの真偽を判断するためには、一次情報である議会会議録などを用いて○○議員の実際の発言を調査すればよい。本研究では、新聞記事で引用されている箇所をどのように探せばよいか検討するため、地方議会会議録コーパスを利用し、会議録の発言がどのように新聞記事に記述されているかを明らかにする。具体的には、日経電子版の記事から「豊洲問題」に関する記事 67 点を収集し、そのうち発言文 (会議録要約文) が載る 32 点の記事から 150 の対応関係を抽出し、分析を行った。引用箇所の約95%はBoWなどの語句レベルの一致により推定できると示唆された。
先行研究と比べてどこがすごい?
我々は,従来から,全国の自治体の地方議会会議録を収集・整理する手法を確立し,「地方議会会議録コーパス」の構築を進めてきた
技術や手法のキモはどこ?
特になし。
どうやって有効だと検証した?
特になし。
議論はある?
対応箇所を自動的に推定する難しさの観点から、32記事における 150 文を以下のように分類した。
- 新聞記事の引用箇所と都議会会議録の発言箇所の表現が完全に一致する.
- 新聞記事の引用箇所と都議会会議録の発言箇所の表現がほぼ一致する.
- (2a) 一致しない箇所は,敬語を常態語 (普通語)に直していたり,敬体を常体に直している.
- (2b) 一致しない箇所は,助詞,接続詞,形式名詞などの実質的な意味を表さない語句を言い換えている.
- (2c) (2a) と (2b) に当てはまらない,実質的な意味を表す語句を言い換えている.
- 新聞記事の引用箇所と都議会会議録の発言箇所の表現が大きく異なる.
(1) は語句が連続しているかどうかの問題はあるが、引用箇所に該当する表現が全て発言箇所に存在しており、exact match により推定できると考えられる。(1) は最も簡単に対応関係を推定できる場合であり、調査対象の 22.7%(34/150 文)を占めた。
(2) は、引用箇所をBag of Words(BoW)として表現することで対応関係が推定できそうなものである。
(3) は、対応関係にある箇所全体の意味を考慮しなくてはならず、語句レベルの対応関係を超えているため最も難しい推定となる。しかしながら(3) は調査対象の 5.3%(8/150文)と少なかった。
次に読むべき論文は?
特になし。検出に向けた続報が出たら読みたい。