「SciPy Japan 2020」で Kaggle チュートリアルを担当(10月30日)
10月30日からオンライン開催される「SciPy Japan 2020」にて、初日朝9:00〜12:30のチュートリアル講座を担当します。本記事では「SciPy Japan」の紹介と、参加される方向けのご案内を掲載します。
Tutorial: Pythonで機械学習コンペティション「Kaggle」をはじめよう (Let's start a machine learning competition called Kaggle, with Python) - Shotaro Ishihara (Beginner) (JP)
Conference Schedule | SciPy Japan
「SciPy Japan」とは?
SciPy Japanは、Pythonの数値計算系ライブラリ「SciPy」の名を冠した、科学技術分野の幅広い話題を扱っている技術イベントです。本家「SciPy Conference」は2008年以降にアメリカとヨーロッパで開かれており、日本版は今年が2度目の開催です。概要は、下記の資料が分かりやすいと思います。
今年はオンライン開催で、参加費*1は5000円(学生2500円)とのことです。
昨年の日本版初開催*2や、2020年の本家*3など、過去動画もほとんど全て公開されています。
Pythonで機械学習コンペティション「Kaggle」をはじめよう
公募されていたチュートリアルに申し込み、私のKaggleに関する内容が採択されました。
SciPy Japanは、日本を中心に科学技術分野に興味の持つPythonユーザが集まる場です。Kaggleは機械学習など高度な数値計算を扱うため、ライブラリが充実しているPythonとの相性が良いと考えています。ぜひ一人でも多くの方に、Kaggleの魅力に触れていただきたいと考えています。
本チュートリアルでは、Notebook形式のソースコードを実行しながら、機械学習やKaggleの基礎を学びます。入門書『PythonではじめるKaggleスタートブック』*4の執筆や、コンペティションの優勝・開催の経験も踏まえ、さまざまな観点からKaggleの魅力をお伝えします。参加者が「Pythonを用いたKaggleの戦い方や学び方」を身につけられるような内容を目指しています。
資料・リンクなど
本チュートリアルで利用する資料・リンクなどは、下記にまとめています。発表資料も含めて一般公開したので、参加できない方でもご参照いただけます。発表言語は日本語ですが、資料などは英語で作成しています。
参加される方へ
本チュートリアルに参加される方は、下記の事前準備をお願いします。何らかのブラウザをインストールしたパソコンが必要です。事前にKaggleアカウントの作成をお願いします。Kaggleのウェブサイト上の実行環境を利用するため、パソコンにPythonの実行環境を整える必要はありません。
おわりに
持ち時間の3時間30分のオンライン発表というのは未曾有の体験ですが、多くの方にKaggleの魅力をお伝えし、少しでも裾野を広げられればと考えています。参加される方は、よろしくお願いします。
「AWS DEV DAY ONLINE JAPAN」のKaggleセッションに登壇(10月21日)
「AWS DEV DAY ONLINE JAPAN」のKaggleセッションに登壇します。10月21日15:50〜16:20のブレイクアウトセッションです。
E-9 : kagglerが語る「コンペとキャリアとビジネスと私」
元「専業Kaggler」の currypurinさん と、AWSの atfujitaさん の四方山話を、ガンガン掘り下げていきたいと思います。特別ゲストとして、Kaggleの4カテゴリでGrandmasterの称号を持つAbhishek Thakurさんのお話もお楽しみいただけます。サイトにて無料登録することで閲覧できるので、ご興味ある方はぜひご覧ください。
2020/10/21 15:50-16:20に講演予定のAWS DevDay2020のkagglerセッションでは@upura0、@currypurin に加えkaggle 4GMの@abhi1thakur にもkaggleとビジネス、キャリア、学びについて語ってもらいます! https://t.co/qWowXGeenk
— atfujita (@FujitaAtsunori) October 14, 2020
Podcast「白金鉱業FM」に出演しました #白金鉱業fm
BrainPad社のデータサイエンティスト有志によるPodcast「白金鉱業FM」に出演しました。先日公開された「keep-alive.fm」*1と合わせて、お楽しみください。
話題
以下が今回のお品書きです。興味のある部分だけでも、ぜひ聴いてみてください。感想は #白金鉱業fm でよろしくお願いします。
- 00:00:00: 自己紹介・INMAの受賞
- 00:08:00: なんでデータサイエンティストやってるの?
- 00:13:00: デジタル社会のニュースメディアへの在り方
- 00:31:00: 推薦のセレンディピティ
- 00:39:50: サブスクリプションモデル
- 00:49:20: ニュースメディアの事業領域の拡大
- 01:00:30: Weekly Kaggle News
- 01:14:30: Podcastの台頭
- 01:29:00: 今後やりたいこと
- 01:42:00: おすすめ書籍
質問対応
ちょっと待ってくれ...
— 白金鉱業.FM (@shirokane_fm) October 18, 2020
質問来たらメール通知するように設定していたマシュマロが死んでいた...
草野さん回、u++さん回へ質問くださっていた方々、無視してるみたいになっており本当にすみませんでした!🙇♂️ 何らかの形で回答したいと思います!
番組への感想コメントも届いておりとても嬉しいです!😭
こちらの関係で、1件回答しそびれた質問がありました。
u++さんへ質問です。好きなディープラーニングモデルと好きな食べ物を教えてください。 私は、EfficientNetとからあげです。
何となく質問者が分かる気もするんですが(笑)、こちら回答します。
前者はResNet18ですかね。(古いと思われる方もいるかもしれませんが)画像案件の最初の検証では使っています。後者は寿司と焼き肉です。
生存戦略を語るPodcast「keep-alive.fm」に出演しました #keepalivefm
広義のソフトウェアエンジニアが生存戦略を語るPodcast「keep-alive.fm」に出演しました。
話題
以下が今回のお品書きです。以前から親交のあった@guiltydammyさんと@crcrparさんと一緒に、楽しくお喋りしました。
興味のある部分だけでも、ぜひ聴いてみてください。感想は #keepalivefm でよろしくお願いします。
- 00:00:00 keep alive fmのドメインを取りました!
- 00:01:00 本編開始
- 00:02:00 自己紹介
- 00:04:20 INMA “30 Under 30 Awards”
- 国際ニュースメディア協会で今年新設された世界の若手30人に贈られる賞
- アジア太平洋地域の最優秀賞
- 大学時代の学生新聞経験と、Kaggleなどデータサイエンスの強み
- 00:07:00 大学新聞
- 記者や編集長の立場で、電子版の立ち上げに関わる
- ページ閲覧数やSNSでの反響を分析
- 紙以上の世界の広がりを感じて、webの凄さを知る
- 広告やイベント事業にも関わる
- 00:14:10 データサイエンス
- 学生新聞の経験を通じて、データを分析して知見を取り出す楽しさを知った
- 企業に入った後に趣味としてKaggleを始める
- Optunaの活用事例
- 00:28:00 チームか個人か
- 知識共有が好き
- 会社への帰属意識
- 個人としての責任・価値
- コンフォートゾーン・転職・挑戦
- データサイエンスが向いている領域
- 00:50:45 どれくらい先のこと考えている?
- @upura0 の場合
- @crcrpar の場合
- @guiltydammy の場合
- 答えは分からないながらも考えていくことが大切
- 人生はA/Bテストできない
- いろいろ手数を打っていて、気づいたら希少性になった
おわりに
このPodcastの第1回に登場するお三方は、次の記事を拝見して当時から一方的に知っていました。このたびご縁があって出演することになり、感慨深い気持ちです。過去3回も良い話が多いので、ぜひ聴いてみてください。
Kaggle「OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction」コンペ参加録
Kaggle「OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction」コンペ*1に参加し、銀メダルの77位でした。
解法はdiscussion*2に簡単にまとめましたが、公開Notebookからの派生でモデルを作り、CVの良い8つのモデルの平均を取りました。
1位相当の提出もありましたが、理論なき定数倍によるもので、最終選択はできませんでした。
同時に終了になったKaggle「OSIC Pulmonary Fibrosis Progression」コンペ*3も地味に参加していたのですが、こちらは銅メダル圏内から転落してメダルなしでした。画像コンペの練習にはなったかなと思います。
今回の最終結果の発表時は「Covid Vaccine Private LB公開を見守る会」なるイベント*4に参加していました。公開前後にワチャワチャ話すのは思いのほか楽しく、参加者が多いコンペのときにまた参加(もしくは企画)したいです。
テストデータの不備が判明した結果、順位表*5が8日に更新されました。順位は58位で変わらず銀メダルでした。
SIGNATE「ひろしまQuest2020#stayhome【アイデア部門】」提出資料
以前に参加していたSIGNATE「ひろしまQuest2020#stayhome【アイデア部門】」*1について、自分の提出資料を公開しました。残念ながら入賞はできませんでしたが、興味関心のある野球のデータを分析できて非常に楽しいコンペでした。入賞者以外の成果物共有を許諾してくださったデータスタジアム・SIGNATEのご担当者さまに、改めてお礼申し上げます。
発表資料
※Speaker Deckの仕様で、途中でサイズが変わるPDFに対応していないようです。Speaker Deckのページからダウンロードしてご覧ください。
山手線を徒歩で一周した(3年ぶり2回目)
コロナ禍でしばらく外出自体を控えていましたが、年始以来の久々の徒歩企画です。
今回はマスクを装着し、山手線を徒歩で一周しました。3年前の学生時代以来、人生2度目の挑戦です。前回とは逆方向で周ってみました。
鶯谷・日暮里・西日暮里・田端 pic.twitter.com/c5Izn9qzuP
— u++ (@upura0) September 21, 2020
目白・高田馬場・新大久保・新宿 pic.twitter.com/VSoIOjQigG
— u++ (@upura0) September 21, 2020
目黒・五反田・大崎・品川 pic.twitter.com/ws2rjznx2u
— u++ (@upura0) September 21, 2020
有楽町・東京・神田・秋葉原 pic.twitter.com/rndlMVT4RO
— u++ (@upura0) September 22, 2020
電池が危ない pic.twitter.com/j1DxCEfhai
— u++ (@upura0) September 22, 2020
前回よりも2時間短縮し、8時間でゴールしました。「リングフィットアドベンチャー」*1のおかげか、足の疲労も前回ほどではなかったと思います。高輪ゲートウェイ駅の新設など、いろいろ変わっている部分もあり面白かったです。