データアナリスト/データサイエンティストの登竜門 (Gateway to Success) となることを目指した勉強会「Data Gateway Talk vol.5」に参加しました。
data-gateway-talk.connpass.com
対象を絞った勉強会で以前から関心はあり、今回が初参加です。
本記事では、全発表について概要と所感を述べます。
- データ分析業務を1年間やって実感したこと
- 「データ分析」の解像度を上げたい
- GBDTアルゴリズム Gradient Boost Decision Tree with Iris Data
- Hivemallを使ってSQLで機械学習
- SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する
- リサーチデータと付き合うために大事なこと
- 意思決定に回帰分析を利用した話と3つの学び
- データ分析とベンチャーと上場とキャリアの話
- おわりに
データ分析業務を1年間やって実感したこと
奥田 悠貴さん(スイッチ・メディア・ラボ)
発表資料
概要
- テレビ広告業界でデータサイエンティストとして働く奥田さんのお話
- データを分析した結果をどのように可視化して依頼主に伝えるかというテーマ
- 「多くの人にCMを見てもらうためにどの番組に出稿するか」という具体例に基づき、可視化の際に生じる情報量と分かりやすさのトレードオフについて言及した
所感
「依頼者が結果的にしたいのは意思決定なので、意思決定を促進するためのデータが必要」「分析の手法よりも、意思決定に結びつく結果の見せ方を試行錯誤するのはもっと大事」など、共感できる言葉が多かったです。自分の考えと近い部分が多く、納得感のあるお話でした。
「データ分析」の解像度を上げたい
松村 優也さん(Wantedly)
発表資料
概要
- Wantedly Visit の推薦システム全般のマネジメントに関わっている松村さんのお話
- 「データ分析」が示すものが曖昧なため、組織・個人間で期待値のズレが生じているのではないかという問題意識
- 樫田さんのブログなどを引用しながら、松村さんなりの「データ分析」論をまとめつつ、個人や組織でも共通の認識を持てると良いのではという提言で締めた
所感
冒頭で例として出てきた「Kaggleでメダルを取っている学生をインターンで採用したが上手くマッチしなかった」といった話は、データサイエンスやAIなどのブームに伴い発生しがちな案件だと思います。絶対的な正解はない話ですが、個人だけではなく組織で共通の認識を醸成していく取り組みはとても大切だなと改めて感じました。
GBDTアルゴリズム Gradient Boost Decision Tree with Iris Data
Yasshieeeeさん(工学院大学)
発表資料
概要
- 情報学部で学ぶ大学生のYasshieeeeさんのお話
- Kaggleなどで有名な機械学習アルゴリズムである勾配ブースティングについて、理論面から解説
- 具体的な実装ライブラリであるXGBoost, LightGBM, CatboostをIris Dataに対して実行・比較
所感
今回の勉強会の中で理論面から扱うのは難しそうな中で、噛み砕いた解説を試みていたのは素敵でした。
Hivemallを使ってSQLで機械学習
馬場 はるかさん(ブレインパッド)
発表資料
概要
- ビッグデータを扱う「Hadoop」上でSQLクエリを用いて機械学習を実行できるライブラリ「Hivemall」を解説
- SQL内で学習を実行するとモデルがテーブルとして保存され、このテーブルを読み出して予測した結果もテーブルとして保存される
- デジタルマーケティング領域における機械学習システム組み込みを例に、データベース内部で機械学習の一連の処理を完結させられる利点などを紹介した
所感
HadoopやHivemallは、ほとんど名前くらいしか聞いたことがない状態でした。環境を用意するリソースの削減、加工・転送の実装の割愛など、実運用面で非常に有益な選択肢だと感じました。
SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する
森下 光之助さん(TVISION INSIGHTS)
発表資料
概要
- テレビ業界でデータ分析に取り組む森下さんのお話
- 機械学習の解釈手法の一つとしても使われている「SHAP」の紹介
- 解釈性が求められている背景から始め、協力ゲーム理論とSHAP値、機械学習への応用まで理論面を解説
- 実際の分析例もコードを交えて紹介した
所感
SHAPについて理論から実装まで丁寧に解説された良い資料だと思いました。単に機械学習ツールとしての紹介をするだけではなく、協力ゲーム理論の部分から紐解いて説明しているのが個人的に好感度が高かったです。
リサーチデータと付き合うために大事なこと
池澤 龍星さん(FiNC Technologies)
概要
- FiNC Technologiesでグロースエンジニアとして働く池澤さんのお話
- 分析・実装・振り返りのサイクルを回している中で得られた学びの共有
- ユーザデータの抽出や回答データの分析に時間がかかる課題について、処理の自動化やクラウドサービスの利用などで対処した
所感
自分も業務の中でデータ分析部門の立ち上げメンバとして関わってきたので、Redashによるデータの民主化や自動化・定期実行の仕組みづくりなどのお話は懐かしい気持ちになりました。「知見のある人を巻き込む」「困ってる人と議論する」「本質的な課題を解決する」なども、ご本人の体験談に基づく納得感あるお話だったと感じました。
意思決定に回帰分析を利用した話と3つの学び
二見 大揮さん(Retty)
発表資料
概要
- Rettyでデータアナリストとして働く二見さんのお話
- 意思決定に回帰分析を利用した中で得られた知見の共有
- 手順:①意思決定者を把握②何の意思決定をするかを把握③どういう分析結果が出ると良いのかの擦り合わせ
- 分析設計:①説明変数をMECEに②交互作用の掛け合わせは後回し③施策の打ちやすさや季節要因を考慮
- 評価:①精度は参考程度に②p値や信頼区間の議論③意外な説明変数は考察が必要
所感
Rettyのデータ分析チームは地に足ついた分析を着実に実行している印象を持っています。その印象通り、回帰分析を用いる中で陥りがちな点をステップごとに丁寧に議論した良い発表でした。
データ分析とベンチャーと上場とキャリアの話
太田 満久さん(ブレインパッド)
発表資料
概要
- ブレインパッドでChief Data Technology Officerという役割を担う太田さんのお話
- 新卒でベンチャー(当時の従業員数60人)に入って上場を経験した体験談から、学生や若手のデータサイエンティストに向けたキャリア論
- 非公開情報も含めて、働き方・金銭面・経営陣との関わり・コミュニティ活動など
所感
プレイヤーからマネージャーになる過程での失敗談や、コミュニティ活動の大切さに気づいた経緯など、生々しい貴重な話がお聞きできました。現在の会長から伝えられて印象に残っているという「Quick & Dirty」(完璧でなくとも速くアウトプットする、フィードバックのループを回せ)というお言葉など、メッセージ性に富んだ発表でした。
Podcastでは現職についてお話をしているらしく、こちらも帰宅後に拝聴しようと思います。
おわりに
本記事では「Data Gateway Talk vol.5」の全発表について概要と所感を述べました。