u++の備忘録

「Data Gateway Talk vol.5」に参加しました&全発表まとめ #dgtalk

データアナリスト/データサイエンティストの登竜門 (Gateway to Success) となることを目指した勉強会「Data Gateway Talk vol.5」に参加しました。

data-gateway-talk.connpass.com

対象を絞った勉強会で以前から関心はあり、今回が初参加です。

本記事では、全発表について概要と所感を述べます。

データ分析業務を1年間やって実感したこと

奥田 悠貴さん(スイッチ・メディア・ラボ)

発表資料

概要

所感

「依頼者が結果的にしたいのは意思決定なので、意思決定を促進するためのデータが必要」「分析の手法よりも、意思決定に結びつく結果の見せ方を試行錯誤するのはもっと大事」など、共感できる言葉が多かったです。自分の考えと近い部分が多く、納得感のあるお話でした。

「データ分析」の解像度を上げたい

松村 優也さん(Wantedly

発表資料

概要

  • Wantedly Visit の推薦システム全般のマネジメントに関わっている松村さんのお話
  • 「データ分析」が示すものが曖昧なため、組織・個人間で期待値のズレが生じているのではないかという問題意識
  • 樫田さんのブログなどを引用しながら、松村さんなりの「データ分析」論をまとめつつ、個人や組織でも共通の認識を持てると良いのではという提言で締めた

所感

冒頭で例として出てきた「Kaggleでメダルを取っている学生をインターンで採用したが上手くマッチしなかった」といった話は、データサイエンスやAIなどのブームに伴い発生しがちな案件だと思います。絶対的な正解はない話ですが、個人だけではなく組織で共通の認識を醸成していく取り組みはとても大切だなと改めて感じました。

GBDTアルゴリズム Gradient Boost Decision Tree with Iris Data

Yasshieeeeさん(工学院大学

発表資料

概要

  • 情報学部で学ぶ大学生のYasshieeeeさんのお話
  • Kaggleなどで有名な機械学習アルゴリズムである勾配ブースティングについて、理論面から解説
  • 具体的な実装ライブラリであるXGBoost, LightGBM, CatboostをIris Dataに対して実行・比較

所感

今回の勉強会の中で理論面から扱うのは難しそうな中で、噛み砕いた解説を試みていたのは素敵でした。

Hivemallを使ってSQL機械学習

馬場 はるかさん(ブレインパッド)

発表資料

概要

  • ビッグデータを扱う「Hadoop」上でSQLクエリを用いて機械学習を実行できるライブラリ「Hivemall」を解説
  • SQL内で学習を実行するとモデルがテーブルとして保存され、このテーブルを読み出して予測した結果もテーブルとして保存される
  • デジタルマーケティング領域における機械学習システム組み込みを例に、データベース内部で機械学習の一連の処理を完結させられる利点などを紹介した

所感

HadoopやHivemallは、ほとんど名前くらいしか聞いたことがない状態でした。環境を用意するリソースの削減、加工・転送の実装の割愛など、実運用面で非常に有益な選択肢だと感じました。

SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する

森下 光之助さん(TVISION INSIGHTS)

発表資料

概要

所感

SHAPについて理論から実装まで丁寧に解説された良い資料だと思いました。単に機械学習ツールとしての紹介をするだけではなく、協力ゲーム理論の部分から紐解いて説明しているのが個人的に好感度が高かったです。

リサーチデータと付き合うために大事なこと

池澤 龍星さん(FiNC Technologies)

概要

  • FiNC Technologiesでグロースエンジニアとして働く池澤さんのお話
  • 分析・実装・振り返りのサイクルを回している中で得られた学びの共有
  • ユーザデータの抽出や回答データの分析に時間がかかる課題について、処理の自動化やクラウドサービスの利用などで対処した

所感

自分も業務の中でデータ分析部門の立ち上げメンバとして関わってきたので、Redashによるデータの民主化や自動化・定期実行の仕組みづくりなどのお話は懐かしい気持ちになりました。「知見のある人を巻き込む」「困ってる人と議論する」「本質的な課題を解決する」なども、ご本人の体験談に基づく納得感あるお話だったと感じました。

意思決定に回帰分析を利用した話と3つの学び

二見 大揮さん(Retty)

発表資料

概要

  • Rettyでデータアナリストとして働く二見さんのお話
  • 意思決定に回帰分析を利用した中で得られた知見の共有
  • 手順:①意思決定者を把握②何の意思決定をするかを把握③どういう分析結果が出ると良いのかの擦り合わせ
  • 分析設計:①説明変数をMECEに②交互作用の掛け合わせは後回し③施策の打ちやすさや季節要因を考慮
  • 評価:①精度は参考程度に②p値や信頼区間の議論③意外な説明変数は考察が必要

所感

Rettyのデータ分析チームは地に足ついた分析を着実に実行している印象を持っています。その印象通り、回帰分析を用いる中で陥りがちな点をステップごとに丁寧に議論した良い発表でした。

データ分析とベンチャーと上場とキャリアの話

太田 満久さん(ブレインパッド)

発表資料

ohtaman.github.io

概要

  • ブレインパッドでChief Data Technology Officerという役割を担う太田さんのお話
  • 新卒でベンチャー(当時の従業員数60人)に入って上場を経験した体験談から、学生や若手のデータサイエンティストに向けたキャリア論
  • 非公開情報も含めて、働き方・金銭面・経営陣との関わり・コミュニティ活動など

所感

プレイヤーからマネージャーになる過程での失敗談や、コミュニティ活動の大切さに気づいた経緯など、生々しい貴重な話がお聞きできました。現在の会長から伝えられて印象に残っているという「Quick & Dirty」(完璧でなくとも速くアウトプットする、フィードバックのループを回せ)というお言葉など、メッセージ性に富んだ発表でした。

Podcastでは現職についてお話をしているらしく、こちらも帰宅後に拝聴しようと思います。

おわりに

本記事では「Data Gateway Talk vol.5」の全発表について概要と所感を述べました。

f:id:upura:20200116190908j:plain