u++の備忘録

Oculus Goが届いた(感想)

f:id:upura:20180517201018p:plain

昨晩に届いて2時間くらい一気に試して、今日は「もう別に触らなくて良いかな」という気分まで燃え尽きた。

試したアプリ

Epic Roller Coaster

速攻で酔った。自分がVR酔いしやすいと判明し、萎えた。

ブラウザ

DAZN日経新聞紙面ビューアーを見た。DAZNは巨大ディスプレイで臨場感があった。紙面ビューアーはOculus Goでの使用が当然想定されてないため、操作性が壊滅的に悪かった。

ニュースアプリ(CNNやBBC

  • ジャーナリズムの新しい可能性を感じた。スマホを見るような手軽さで、VRを通じて現場を体感できる。

DMM VR

普通にすごかった(語彙力不足)。

終わりに

  • 勝手に燃え尽きたのは、まだまだ魅力的なコンテンツを知らないからな気もするので調べたい。

【Pandas】欠損値を、欠損していない値からランダム抽出して補完する

あまりこういう欠損値補完はしない気もするけど、業務にて要望があった。調べても、これくらいしか情報が出てこなかったので、自分用メモ。もっと良い書き方がある気がする。

stackoverflow.com

target_column_name = \
['column0', 'column1', 'column2']

for tcn in target_column_name:
     df[tcn] = df[tcn].apply(lambda x: df[tcn].dropna().sample().values[0] if x != x else x)

自然言語処理×ジャーナリズムな研究まとめ ~ 言語処理学会(NLP2018)より ~

今年のGWも終わりますね。僕は若者らしく、今年3月の言語処理学会の論文を読み漁っていました*1

個人的に興味のあるジャーナリズム絡みの論文を中心に総計12本読んだので、下記の記事からタイトルを拝借する形で、一つの記事にまとめておきます。

data.gunosy.io

新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて―

概要
フェイクニュース検出に向けた調査の研究。「新聞記事に掲載された政治家の発言の引用」と「地方議会会議録」を逐一比較していき、約95%はBoWなどの語句レベルの一致で推定できるとまとめている。

所感
BoWという単純な仕組みで、結構な高割合が評価できるというのは意外。ただよく考えると、新聞記事でそこまで凝った文章加工はしないので妥当な数字な気も。

upura.hatenablog.com

関連記事判定のためのニュース記事キーフレーズ抽出

概要
ニュースサイトで良くある「関連記事」を自動で導出するタスク。「キーフレーズ共有性」という新たな評価尺度と、その概念に基づく抽出法を提案している。

所感
計算量の節約のためにRNNによる近似を導入したら、性能も上がったという報告が興味深い(本論文の考察でも理由は十分に掘り下げられていない)。

upura.hatenablog.com

経済記事からの不祥事報道検知

概要
経済記事を「不祥事」に関するものか否かで二値分類するシステムの開発。アルゴリズムロジスティクス回帰とN-gram。精度を追い求めるだけでなく、解釈性・頑健性などを深く議論している。

所感
機械学習を実システムに導入する際のTipsのような論文。

upura.hatenablog.com

決算短信からの事業セグメント情報抽出

概要
決算短信特有の言語的な特徴を考慮した「事業セグメント情報抽出手法」を提案し、その有用性について実データを用いて評価。

所感
ドメイン知識をフル活用して、実直にタスクに取り組んでいる。

upura.hatenablog.com

ブートストラップ法による科学ニュース記事からの雑誌名抽出

概要
雑誌名が特定の文脈に出現しやすいという仮定を立て、雑誌名の両側から学習した文脈をパターンとして利用しブートストラップ法で雑誌名を抽出

所感
論文の第一文のこの問題の解消が根本的な解決策ではないかと思ったり。。。

日本語の科学ニュース記事では,研究成果がわかりやすく述べられるが,出典となる文献情報は明記されない傾向にある.

upura.hatenablog.com

検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

概要
フェイクニュース検出に関して、人間と同じやり方(検索エンジンによる上位検索ページを情報源として判断)をコンピュータで再現しようとした論文。

所感
うまくいかなかった例を分析した結果「検索された結果ページにフェイクニュースの記事のほうが多く存在してしまう場合」が挙げられていて、そうだよなあと思った。このアプローチだとどうやっても人間を大きく超える性能は出せないだろうが、目的は「データセット作成」に置いているので悪くもない気もする。
upura.hatenablog.com

ニュースからのトピックに関するストーリーラインの生成

概要
ニュースコーパスからトピック (知りたい事柄) に関連するテーマを抽出し,そのテーマに関連する文が時系列順に並んだ文集合 (ストーリーライン) を出力するシステムを提案。

所感
「ストーリーラインの生成」というタスクを、細かいタスクに分解している。他の研究成果を動員して実現する応用研究のような立ち位置。

upura.hatenablog.com

複数エンコーダを用いたヤフートピックス見出し候補生成

概要
「記事タイトル」と「記事リード文」を入力とし、エンコーダ・デコーダの枠組みからトピックス見出しを生成する手法を提案。

所感
単に先行研究をサービスに適用するだけでなく、技術的な修正もしているのが良い。

upura.hatenablog.com

会話によるニュース記事伝達のための間の調整

概要
会話によるニュース記事伝達において、割り込みを許容しながら快適なリズムで会話を進行させるための間の調整について検討。テクノロジー系のニュース記事 100 個を人手で要約・口語化し、実際に声優に話してもらいコーパスを作成。双方向 LSTMやBayesianRidgeモデルで学習させた。

所感
スマートスピーカーが流行っている中、ある意味新しいジャーナリズムの形を模索する論文と言っても良い気がする。

upura.hatenablog.com

プレイデータからのサッカーの速報テキスト生成

概要
www.nikkei.com

「選手名やチーム名を汎化タグに変換」「単語bigramを1つの単語として結合」の工夫で、encoder-decoder[6]モデルの性能が向上。

所感
直感的にも性能改善しそうな前処理をすることで、実際に性能が改善しており、腑に落ちやすかった。

upura.hatenablog.com

ファクトチェックを必要とするニュース記事の探索の支援

概要
ファクトチェックの必要性を示唆する情報(=「端緒情報」)の探索を自動化し,人手による要検証記事探索作業を技術的に支援する仕組みを構築。

所感
うまくいかなかった例を見ていると、人間の発言をコンピュータに解釈させることの難しさを改めて実感する。

upura.hatenablog.com

Experiment on Using Topic Sentence for Neural News Headline Generation

概要
encoder-decoderモデルを用いたニュースの見出し生成タスクで、第一文ではなく「トピックセンテンス」を使った場合の影響を調べる。第一文に加えてトピックセンテンスも利用した方が性能が上がった。

所感
多様な情報を利用した方が精度は出そうなので、最後はどこかで計算コストと性能のトレード・オフみたいな話に帰着しそう。

upura.hatenablog.com

【論文メモ】Experiment on Using Topic Sentence for Neural News Headline Generation

Experiment on Using Topic Sentence for Neural News Headline Generation

どんなもの?

  • encoder-decoderモデルを用いたニュースの見出し生成タスクにおいて、先行研究では文章の第一文を使うことが多い
  • 本研究では、トピックセンテンス(文章内の重要な文章)を使った場合の影響を調べる
    • 第一文よりもトピックセンテンスの方が有用か否か
    • 第一文に加えてトピックセンテンスも使った場合にも有用か否か

先行研究と比べてどこがすごい?

上記に記載

技術や手法のキモはどこ?

「トピックセンテンス」の定義

文献[14]に基づき、以下のように定義する

Topic sentence contains the core elements ⟨subject, verb, object⟩ and at least one subordinate element time or location

どうやって有効だと検証した?

f:id:upura:20180506224643p:plain

議論はある?

  • 「トピックセンテンス」以外の重要文抽出アルゴリズムについても検討したい

次に読むべき論文は?

NULL

【論文メモ】ファクトチェックを必要とするニュース記事の探索の支援

ファクトチェックを必要とするニュース記事の探索の支援

どんなもの?

  • ファクトチェックの必要性を示唆する情報(=「端緒情報」)の探索を自動化し,人手による要検証記事探索作業を技術的に支援する仕組みを構築
    • Twitterの投稿を対象に,そこから端緒情報の可能性が高い投稿を自動抽出し,それらの情報に基づいてニュース記事を検証必要度の観点からランキングする

先行研究と比べてどこがすごい?

インターネット上の誤情報を検出する研究は行われているものの [1, 2, 9],幅広いドメインから端緒情報を抽出し,要検証記事を収集する研究は本研究が初

技術や手法のキモはどこ?

f:id:upura:20180506203932p:plain

どうやって有効だと検証した?

データセット

  • 朝日新聞デジタル,産経ニュース,日経電子版,毎日新聞のニュース・情報サイト,YOMIURI ONLINEのいずれかの媒体の記事 URL を含むツイートを 20,000 件抽出
    • 人手で各ツイートが端緒情報であるか判定
    • 正例:606 件(全体の 3.03%)
    • 負例:正例でなく,bot によるツイートや,記事の本文やタイトルを引用しているだけでないツイートのうち 2,851件

分類器(5種類)

f:id:upura:20180506205124p:plain

議論はある?

f:id:upura:20180506205429p:plain

  1. 単なる皮肉
  2. 指摘の対象が記事でなく政府
  3. 「嘘」は日常で使いやすい

次に読むべき論文は?

NULL

【論文メモ】プレイデータからのサッカーの速報テキスト生成

プレイデータからのサッカーの速報テキスト生成

どんなもの?

www.nikkei.com

  • サッカー選手のプレイデータから速報テキストを生成

先行研究と比べてどこがすごい?

  • テキスト生成課題で広く用いられる encoder-decoder[6]モデルは, 選手名やチーム名のような低頻度な単語に強く影響を受け,プレイデータについて正しく言及するようなテキストが出力できないという問題点があった
  • 提案手法では出力となる速報テキストにおける言語表現を汎化した上で学習し,それらの復元方法も同時に学習することで,プレイデータにより即した出力結果を得た

技術や手法のキモはどこ?

  • encoder-decoder[6]モデルを拡張
    • 選手名やチーム名といった多様な入力を,速報テキスト中での出現順に番号付けし汎化タグに変換
    • 過学習を避けるため,学習データセット中の頻度が上位 100 件の単語 bigram を 1 つの単語として扱う

どうやって有効だと検証した?

  • Premier League1の 15/16 シーズンの全試合のデータを利用

f:id:upura:20180506192458p:plain

議論はある?

f:id:upura:20180506192912p:plain

汎化タグに変換するだけでなく,単語の結合も行うことで,生成文の質が上がっていた

次に読むべき論文は?

encoder-decoder[6]モデル
[6] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Sequence to sequence learning with neural networks. arXiv:1409.3215, 2014.

【論文メモ】会話によるニュース記事伝達のための間の調整

会話によるニュース記事伝達のための間の調整

どんなもの?

  • 会話によるニュース記事伝達において,割り込みを許容しながら快適なリズムで会話を進行させるための間の調整について検討
    • ユーザーが理解しやすく,発話中でも割り込みやすい間の実現を目指す

先行研究と比べてどこがすごい?

システム発話の工夫によって相互行為を活性化させようとする観点では,聞き手からの相槌やうなずきなどを誘発する研究が行われているが,これも韻律制御に留まっており,間の制御までは扱っていない [3]

技術や手法のキモはどこ?

  • コーパスの作成
    • テクノロジー系のニュース記事 100 個を人手で要約・口語化し,発話のシナリオを作成した.このシナリオを女性声優に発話させ,その発話音声を収録した
  • 発話内文節間の間の推定
    • 双方向 LSTMで学習
  • 発話間の間の推定
    • BayesianRidgeモデル

f:id:upura:20180506133233p:plain
f:id:upura:20180506133422p:plain
f:id:upura:20180506133605p:plain

どうやって有効だと検証した?

  • 音声合成器として AITalk(話者:のぞみ)を使用し,間の調整を行ったときと行わなかったときでどちらが「質問しやすかったか」「相槌を打ちやすかったか」「頭に入りやすかったか」について評価を行った
  • どちらについても調整を行った間の方が良いという結果が得られた

議論はある?

  • 個人ごとの間の調整や多重タスク下での間の取り方について検討
  • 抑揚の付け方や話速といった韻律情報を総合的に制御できる仕組みについても検討

次に読むべき論文は?

NULL