【論文メモ】Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks
Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks
- Victor Dibia, Çağatay Demiralp
- [1804.03126] Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks
どんなもの?
- 与えられたデータセットから「データ・ビジュアライゼーション」を自動的に生成するためのニューラル翻訳モデル「Data2Vis」を提案
- 「データ・ビジュアライゼーション」の生成を、sequence to sequence 変換問題として定式化
- LSTM(long-term-memory)ユニットを有する多層アテンションベースのリカレントニューラルネットワーク(RNN)を学習させた
- ビジュアライゼーション仕様のコーパスを使用
先行研究と比べてどこがすごい?
- 先行研究
- Bertin[7]は、データ・ビジュアライゼーションを"a language for the eye"として体系化した
- Mackinlay[43]は、データ・ビジュアライゼーションをグラフィカルな言語の文章と見なし、「表現性」と「有効性」の基準に基づいてモデルを定式化し、「形式言語」から概念を借用した
- その後の研究では、さまざまな「文法」も導入された
- 本研究
- 本研究では、これらの知見を拡張して、「データ・ビジュアライゼーション」の生成を、sequence to sequence 変換問題として定式化した
技術や手法のキモはどこ?
どうやって有効だと検証した?
- (生成モデルの定量的検証は一般に難しい)
- "R dataset repository"を利用した定性的検証
- 検証を通じて、モデルが以下を学習することが示された
- モデルが有効なビジュアライゼーション仕様
- 適切な変換(カウント、ビン、平均)
- 一般的なデータ選択パターンの使い方
議論はある?
次に読むべき論文は?
- [7] Jacques Bertin. 1983. Semiology of Graphics. University of Wisconsin Press.
- [43] Jock Mackinlay. 1986. Automating the design of graphical presentations of relational information. ACM Trans. Graphics 5, 2 (1986), 110–141.
[追記: 20180607]
筆者が実装を公開
github.com