u++の備忘録

「Data Gateway Talk vol.5」に参加しました&全発表まとめ #dgtalk

データアナリスト/データサイエンティストの登竜門 (Gateway to Success) となることを目指した勉強会「Data Gateway Talk vol.5」に参加しました。

data-gateway-talk.connpass.com

対象を絞った勉強会で以前から関心はあり、今回が初参加です。

本記事では、全発表について概要と所感を述べます。

データ分析業務を1年間やって実感したこと

奥田 悠貴さん(スイッチ・メディア・ラボ)

概要

所感

「依頼者が結果的にしたいのは意思決定なので、意思決定を促進するためのデータが必要」「分析の手法よりも、意思決定に結びつく結果の見せ方を試行錯誤するのはもっと大事」など、共感できる言葉が多かったです。自分の考えと近い部分が多く、納得感のあるお話でした。

「データ分析」の解像度を上げたい

松村 優也さん(Wantedly

発表資料

概要

  • Wantedly Visit の推薦システム全般のマネジメントに関わっている松村さんのお話
  • 「データ分析」が示すものが曖昧なため、組織・個人間で期待値のズレが生じているのではないかという問題意識
  • 樫田さんのブログなどを引用しながら、松村さんなりの「データ分析」論をまとめつつ、個人や組織でも共通の認識を持てると良いのではという提言で締めた

所感

冒頭で例として出てきた「Kaggleでメダルを取っている学生をインターンで採用したが上手くマッチしなかった」といった話は、データサイエンスやAIなどのブームに伴い発生しがちな案件だと思います。絶対的な正解はない話ですが、個人だけではなく組織で共通の認識を醸成していく取り組みはとても大切だなと改めて感じました。

GBDTアルゴリズム Gradient Boost Decision Tree with Iris Data

Yasshieeeeさん(工学院大学

発表資料

概要

  • 情報学部で学ぶ大学生のYasshieeeeさんのお話
  • Kaggleなどで有名な機械学習アルゴリズムである勾配ブースティングについて、理論面から解説
  • 具体的な実装ライブラリであるXGBoost, LightGBM, CatboostをIris Dataに対して実行・比較

所感

今回の勉強会の中で理論面から扱うのは難しそうな中で、噛み砕いた解説を試みていたのは素敵でした。

Hivemallを使ってSQL機械学習

馬場 はるかさん(ブレインパッド)

発表資料

概要

  • ビッグデータを扱う「Hadoop」上でSQLクエリを用いて機械学習を実行できるライブラリ「Hivemall」を解説
  • SQL内で学習を実行するとモデルがテーブルとして保存され、このテーブルを読み出して予測した結果もテーブルとして保存される
  • デジタルマーケティング領域における機械学習システム組み込みを例に、データベース内部で機械学習の一連の処理を完結させられる利点などを紹介した

所感

HadoopやHivemallは、ほとんど名前くらいしか聞いたことがない状態でした。環境を用意するリソースの削減、加工・転送の実装の割愛など、実運用面で非常に有益な選択肢だと感じました。

SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する

森下 光之助さん(TVISION INSIGHTS)

発表資料

概要

所感

SHAPについて理論から実装まで丁寧に解説された良い資料だと思いました。単に機械学習ツールとしての紹介をするだけではなく、協力ゲーム理論の部分から紐解いて説明しているのが個人的に好感度が高かったです。

リサーチデータと付き合うために大事なこと

池澤 龍星さん(FiNC Technologies)

概要

  • FiNC Technologiesでグロースエンジニアとして働く池澤さんのお話
  • 分析・実装・振り返りのサイクルを回している中で得られた学びの共有
  • ユーザデータの抽出や回答データの分析に時間がかかる課題について、処理の自動化やクラウドサービスの利用などで対処した

所感

自分も業務の中でデータ分析部門の立ち上げメンバとして関わってきたので、Redashによるデータの民主化や自動化・定期実行の仕組みづくりなどのお話は懐かしい気持ちになりました。「知見のある人を巻き込む」「困ってる人と議論する」「本質的な課題を解決する」なども、ご本人の体験談に基づく納得感あるお話だったと感じました。

意思決定に回帰分析を利用した話と3つの学び

二見 大揮さん(Retty)

発表資料

概要

  • Rettyでデータアナリストとして働く二見さんのお話
  • 意思決定に回帰分析を利用した中で得られた知見の共有
  • 手順:①意思決定者を把握②何の意思決定をするかを把握③どういう分析結果が出ると良いのかの擦り合わせ
  • 分析設計:①説明変数をMECEに②交互作用の掛け合わせは後回し③施策の打ちやすさや季節要因を考慮
  • 評価:①精度は参考程度に②p値や信頼区間の議論③意外な説明変数は考察が必要

所感

Rettyのデータ分析チームは地に足ついた分析を着実に実行している印象を持っています。その印象通り、回帰分析を用いる中で陥りがちな点をステップごとに丁寧に議論した良い発表でした。

データ分析とベンチャーと上場とキャリアの話

太田 満久さん(ブレインパッド)

発表資料

ohtaman.github.io

概要

  • ブレインパッドでChief Data Technology Officerという役割を担う太田さんのお話
  • 新卒でベンチャー(当時の従業員数60人)に入って上場を経験した体験談から、学生や若手のデータサイエンティストに向けたキャリア論
  • 非公開情報も含めて、働き方・金銭面・経営陣との関わり・コミュニティ活動など

所感

プレイヤーからマネージャーになる過程での失敗談や、コミュニティ活動の大切さに気づいた経緯など、生々しい貴重な話がお聞きできました。現在の会長から伝えられて印象に残っているという「Quick & Dirty」(完璧でなくとも速くアウトプットする、フィードバックのループを回せ)というお言葉など、メッセージ性に富んだ発表でした。

Podcastでは現職についてお話をしているらしく、こちらも帰宅後に拝聴しようと思います。

おわりに

本記事では「Data Gateway Talk vol.5」の全発表について概要と所感を述べました。

f:id:upura:20200116190908j:plain

Kaggle PetFinderコンペで優勝しました

Kaggleで開催されていた「PetFinder.my Adoption Prediction」コンペ*1で優勝しました*2

f:id:upura:20200111165805p:plain

素晴らしいチームメイトに恵まれた思い出深いコンペです。開催から1年近く経過した今でもチーム「Wodori」のSlackでは活発に議論が交わされており、常に互いに刺激を受けながら切磋琢磨できていると感じます。

Wodoriのチームメイトの皆さまには、私が3月に出版するKaggle入門書*3の技術観点でのレビューも快く引き受けていただきました。Kaggle GrandmasterやKaggle Masterの称号を持っている方々に深く議論に参加していただき、より良い書籍に仕上げられたことを大変嬉しく思っています。

本記事の締め括りとして、本コンペの取り組みに関する公開済の情報を下記にまとめておきます。

Kaggle Notebook

www.kaggle.com

takuoko's GitHub

github.com

Presentation Slides

RData形式のデータセットをPythonで読み込む

Tl;DR

rdataパッケージ*1を用いて、次のようにRData形式のデータセットを読み込める。

import rdata


parsed = rdata.parser.parse_file('../data/vouchers.rda')
converted = rdata.conversion.convert(parsed)
vouchers = converted['vouchers']

f:id:upura:20200106124807p:plain

『効果検証入門』をPython

年末年始に『効果検証入門 ~正しい比較のための因果推論/計量経済学の基礎』(技術評論社*2を読みました。具体例多めで、良くあるハマりどころが解説されている良本だと思います。内容は根本のランダム化比較実験から始まり、回帰分析・傾向スコア・差分の差分法・回帰不連続デザインまでを扱っています。

勉強のため、Rで実装されているサンプルコード*3Pythonで書き換えながら手を動かしてみました。一度通読しただけでは理解が浅かった箇所など気になった部分のみですが、GitHubでコードも公開しています*4

その中で、RData形式で公開されているデータセットを扱う場面がありました。少し調べてみたところ、rdataというパッケージが使いやすかったです。pipでのインストールが可能で、ドキュメントはありませんでしたがGitHubのtestコード*5からコードを流用しました。

おわりに

本記事では、『効果検証入門』のサンプルコードをPythonで実装する際に必要になったRData形式のデータセットPythonで読み込む方法を紹介しました。なお同書のPython実装については、Qiitaにて @nekoumei さんが公開してくださっています*6

移設した銀座線・渋谷駅から浅草駅まで歩いてみた

2020年初挑戦として、恒例の徒歩企画です。今回は、本日移設した銀座線・渋谷駅*1から、終点の浅草駅まで歩いてみました。

全長は約14kmで、iPhoneの地図アプリでは直線距離で徒歩にて2時間50分の道のりでした。

f:id:upura:20200103212531p:plain

渋谷

f:id:upura:20200103212535j:plain

表参道

f:id:upura:20200103212653j:plain

外苑前

f:id:upura:20200103212700j:plain

新橋

f:id:upura:20200103212746j:plain

銀座

f:id:upura:20200103212754j:plain

京橋

f:id:upura:20200103212801j:plain

神田

f:id:upura:20200103212823j:plain

上野

f:id:upura:20200103212902j:plain

浅草

f:id:upura:20200103212936j:plain

浅草寺で初詣も行きました。

f:id:upura:20200103212928j:plain

おわりに

3時間くらいでの到着になりました。2020年もボチボチやっていきたいと思います。目指すは、全路線制覇です。

2019年をザッと振り返る

2019年をサクッと振り返ります。2018年の振り返り記事を見ると、次のような目標を書いていました*1。まだまだ力不足な面ばかりですが、ご縁に恵まれて昨年末には考えられない経験がいくつもできた一年だったと感じています。

引き続き「地道にコツコツ取り組む」のが目標です。2019年末に振り返った際に、「現時点の自分が想像できないような自分」がそこに居たら嬉しいなと思っています。

Kaggle

4月に結果が公開された「PetFinder.my Adoption Prediction」コンペ*2にて、準優勝できました。その後、6月の「LANL Earthquake Prediction」コンペ*3にて銀メダルを獲得し、Kaggle Masterの称号を得ることもできました。

upura.hatenablog.com

upura.hatenablog.com

Competitionsだけではなく、KernelsやDiscussionでも称号を獲得できました。

f:id:upura:20191229184944p:plain Kaggleのプロフィール*4から(2019年12月30日時点)

12月には「Kaggle Days Tokyo」*5も開催され、大いにKaggleで盛り上がった一年となりました。

upura.hatenablog.com

AtCoder

競技プログラミングAtCoderにて、3月に水色になることができました。

Sports Analyst Meetup

2月に第1回を開催した「Sports Analyst Meetup」の運営に関わりました。多くの方々のご協力を得て、1年で5回も開催できました。

upura.hatenablog.com

対外発表

次の場で発表する機会を頂きました。

書籍

10〜11月は、2020年3月に講談社から出版する『Pythonではじめる Kaggleスタートブック』の執筆に捧げる時間が多かったです。

upura.hatenablog.com

徒歩

本ブログの定期シリーズの徒歩企画では、次の4ルートを歩きました。東大キャンパス企画で始まり、東大キャンパス企画で終わった一年でした。

upura.hatenablog.com

upura.hatenablog.com

upura.hatenablog.com

upura.hatenablog.com

ボルダリングも年末に始めました。運動はボチボチと続けていきたいと思います。

はてなブログ

今年も年間100本の記事を執筆できました。読者は昨年末の約170人から300人以上増えて、現時点で500人弱となっています。

f:id:upura:20191229193914p:plain

「Weekly Kaggle News」と冠したニューズレターも始めてみました。

upura.hatenablog.com

おわりに

2019年はいろんな出会いがあり、多くの人に支えられて楽しい時間を過ごすことができました。2020年(からと言わず明日大晦日)も、引き続き地道にコツコツ取り組んでいきたいなと思います。

東大の駒場キャンパスから本郷キャンパスまで歩いてみた

2019年の暮れの挑戦として、東大の駒場キャンパスから本郷キャンパスまで歩いてみました。2019年頭では東大の本郷キャンパスから柏キャンパスまで歩いた*1ので、対としての挑戦になります。

11kmの道のりで、サクッと歩けました。iPhoneでは2時間半の予想でしたが、実際は1時間半くらいで到着しました。

f:id:upura:20191229025054p:plain

この徒歩の間に、来年の登壇2本の内容を大まかに考えることができました。ずっと机に座っていてもアイディアがまとまる訳ではないので、たまに歩くのは良いなあと思います。

来年もボチボチと頑張っていきたいです。

ニューズレター「Weekly Kaggle News」創刊

「Weekly Kaggle News」と冠したニューズレター*1を始めてみました。

www.getrevue.co

日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱う予定です。週次で、毎週金〜日ごろの更新を予定しています。

f:id:upura:20191228134316p:plain

個人的に、SNSが存分に普及した現代だからこそのニューズレターの価値が少し気になりました。いつまで続けるか未定ですが、のんびり続けてみたいと思います。