u++の備忘録

【論文メモ】プレイデータからのサッカーの速報テキスト生成

論文メモ自然言語処理

プレイデータからのサッカーの速報テキスト生成

谷口泰史 (東工大), 高村大也 (東工大/産総研), 奥村学 (東工大)
言語処理学会第24回年次大会(NLP2018)
http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A3-2.pdf

どんなもの？

サッカー選手のプレイデータから速報テキストを生成

先行研究と比べてどこがすごい？

テキスト生成課題で広く用いられる encoder-decoder[6]モデルは，選手名やチーム名のような低頻度な単語に強く影響を受け，プレイデータについて正しく言及するようなテキストが出力できないという問題点があった
提案手法では出力となる速報テキストにおける言語表現を汎化した上で学習し，それらの復元方法も同時に学習することで，プレイデータにより即した出力結果を得た

技術や手法のキモはどこ？

encoder-decoder[6]モデルを拡張
- 選手名やチーム名といった多様な入力を，速報テキスト中での出現順に番号付けし汎化タグに変換
- 過学習を避けるため，学習データセット中の頻度が上位 100 件の単語 bigram を 1 つの単語として扱う

どうやって有効だと検証した？

Premier League1の 15/16 シーズンの全試合のデータを利用

f:id:upura:20180506192458p:plain

議論はある？

f:id:upura:20180506192912p:plain

汎化タグに変換するだけでなく，単語の結合も行うことで，生成文の質が上がっていた

次に読むべき論文は？

encoder-decoder[6]モデル
[6] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Sequence to sequence learning with neural networks. arXiv:1409.3215, 2014.