Grounding Interactive Machine Learning Tool Design in How Non-Experts Actually Build Models

Machine Learning (ML)の「非専門家」が実際にMLソリューションを構築する方法を調査
非専門家特有の可能性と、陥りやすい落とし穴が明らかになった
- 例えば、accuracyがパフォーマンスの単一の尺度として認識され、問題あるモデルがデプロイされた
調査結果から、初心者向けのMLツールを設計する上では簡便性だけでなくロバスト性も同様に重要な目標だと示唆された
非専門家がロバスト性のあるソリューションを容易に構築できるよう促すための設計理論を作成した

f:id:upura:20181117231650p:plain

論文リンク

https://www.microsoft.com/en-us/research/publication/grounding-interactive-machine-learning-tool-design-non-experts-actually-build-models/

著者/所属機関

Qian Yang, Jina Suh, Nan-Chen Chen, Gonzalo Ramos

媒体

Proceeding of the 2018 Designing of Interactive Systems Conference

投稿日付

June 2018

所感

Twitterでおすすめされていたのを見かけて読んでみました。

データサイエンティスト養成読本ビジネス活用編が面白かった人はこの論文も楽しめると思う．「データ分析非習熟者〇〇しがち」がまとめられてて笑ってしまった．https://t.co/IBfzUUDQtd
— canard (@canard0328) November 12, 2018

機械学習の非専門家に対する調査を実施し、陥りやすいミスを特定
→ そのミスに対応するための設計理論を提唱

という流れで、プロジェクトを進める上でのお手本のような論文でした。

論文の前半では調査から得られた知見として「非専門家あるある」がまとめられています。

例えばFigure 2では、非専門家が機械学習を過度にブラックボックスだと捉え「入力Xがあれば、機械学習が出力Yを返す」以上の理解をしていない場合があると指摘しています。

f:id:upura:20181117232946p:plain

ノイズや欠損値の処理や特徴量エンジニアリング、アルゴリズム選定などの試行錯誤を疎かにし、またaccuracyを単一のパフォーマンス評価指標と捉えてしまう点などに言及があります。（Figure 3）

f:id:upura:20181117233753p:plain

確かに、既存の機械学習ツールは利便性が上昇している一方で「裏側で何が起きているか意識しない」という弊害を生んでいるようにも思います。本研究では「初心者向けのMLツールを設計する上では簡便性だけでなくロバスト性も同様に大切」とし、ロバスト性のあるソリューションを容易に構築できるような、インタラクティブな設計理論が提唱されました。

ここでいう「ロバスト性」というのは、Figure 4(b)に示すように

専門家が（ある程度当然に）実施している機械学習のモデル構築の流れを補助してあげることで、偶然の結果ではなく再現性ある結果として評価しよう

という意味だと捉えています。

如何にして機械学習を世に広めていくか考えられており、非常にMicrosoftらしい論文だと思いました。

GitHub

github.com

u++の備忘録

【論文メモ】非専門家向けの調査に基づく、インタラクティブな機械学習ツールの設計

Grounding Interactive Machine Learning Tool Design in How Non-Experts Actually Build Models

論文リンク

著者/所属機関

媒体

投稿日付

所感

GitHub