u++の備忘録

「SciPy Japan 2020」で Kaggle チュートリアルを担当(10月30日)

10月30日からオンライン開催される「SciPy Japan 2020」にて、初日朝9:00〜12:30のチュートリアル講座を担当します。本記事では「SciPy Japan」の紹介と、参加される方向けのご案内を掲載します。

Tutorial: Python機械学習コンペティション「Kaggle」をはじめよう (Let's start a machine learning competition called Kaggle, with Python) - Shotaro Ishihara (Beginner) (JP)

f:id:upura:20201025122531p:plain

Conference Schedule | SciPy Japan

「SciPy Japan」とは?

SciPy Japanは、Python数値計算系ライブラリ「SciPy」の名を冠した、科学技術分野の幅広い話題を扱っている技術イベントです。本家「SciPy Conference」は2008年以降にアメリカとヨーロッパで開かれており、日本版は今年が2度目の開催です。概要は、下記の資料が分かりやすいと思います。

今年はオンライン開催で、参加費*1は5000円(学生2500円)とのことです。

昨年の日本版初開催*2や、2020年の本家*3など、過去動画もほとんど全て公開されています。

Python機械学習コンペティション「Kaggle」をはじめよう

公募されていたチュートリアルに申し込み、私のKaggleに関する内容が採択されました。

SciPy Japanは、日本を中心に科学技術分野に興味の持つPythonユーザが集まる場です。Kaggleは機械学習など高度な数値計算を扱うため、ライブラリが充実しているPythonとの相性が良いと考えています。ぜひ一人でも多くの方に、Kaggleの魅力に触れていただきたいと考えています。

チュートリアルでは、Notebook形式のソースコードを実行しながら、機械学習やKaggleの基礎を学びます。入門書『PythonではじめるKaggleスタートブック』*4の執筆や、コンペティションの優勝・開催の経験も踏まえ、さまざまな観点からKaggleの魅力をお伝えします。参加者が「Pythonを用いたKaggleの戦い方や学び方」を身につけられるような内容を目指しています。

資料・リンクなど

チュートリアルで利用する資料・リンクなどは、下記にまとめています。発表資料も含めて一般公開したので、参加できない方でもご参照いただけます。発表言語は日本語ですが、資料などは英語で作成しています。

github.com

参加される方へ

チュートリアルに参加される方は、下記の事前準備をお願いします。何らかのブラウザをインストールしたパソコンが必要です。事前にKaggleアカウントの作成をお願いします。Kaggleのウェブサイト上の実行環境を利用するため、パソコンにPythonの実行環境を整える必要はありません。

www.scipyjapan.scipy.org

おわりに

持ち時間の3時間30分のオンライン発表というのは未曾有の体験ですが、多くの方にKaggleの魅力をお伝えし、少しでも裾野を広げられればと考えています。参加される方は、よろしくお願いします。

「AWS DEV DAY ONLINE JAPAN」のKaggleセッションに登壇(10月21日)

AWS DEV DAY ONLINE JAPAN」のKaggleセッションに登壇します。10月21日15:50〜16:20のブレイクアウトセッションです。

E-9 : kagglerが語る「コンペとキャリアとビジネスと私」

aws.amazon.com

f:id:upura:20201015062634p:plain

元「専業Kaggler」の currypurinさん と、AWSatfujitaさん の四方山話を、ガンガン掘り下げていきたいと思います。特別ゲストとして、Kaggleの4カテゴリでGrandmasterの称号を持つAbhishek Thakurさんのお話もお楽しみいただけます。サイトにて無料登録することで閲覧できるので、ご興味ある方はぜひご覧ください。

Podcast「白金鉱業FM」に出演しました #白金鉱業fm

BrainPad社のデータサイエンティスト有志によるPodcast「白金鉱業FM」に出演しました。先日公開された「keep-alive.fm」*1と合わせて、お楽しみください。

shirokane-kougyou.fm

話題

以下が今回のお品書きです。興味のある部分だけでも、ぜひ聴いてみてください。感想は #白金鉱業fm でよろしくお願いします。

  • 00:00:00: 自己紹介・INMAの受賞
  • 00:08:00: なんでデータサイエンティストやってるの?
  • 00:13:00: デジタル社会のニュースメディアへの在り方
  • 00:31:00: 推薦のセレンディピティ
  • 00:39:50: サブスクリプションモデル
  • 00:49:20: ニュースメディアの事業領域の拡大
  • 01:00:30: Weekly Kaggle News
  • 01:14:30: Podcastの台頭
  • 01:29:00: 今後やりたいこと
  • 01:42:00: おすすめ書籍

質問対応

こちらの関係で、1件回答しそびれた質問がありました。

u++さんへ質問です。好きなディープラーニングモデルと好きな食べ物を教えてください。 私は、EfficientNetとからあげです。

何となく質問者が分かる気もするんですが(笑)、こちら回答します。

前者はResNet18ですかね。(古いと思われる方もいるかもしれませんが)画像案件の最初の検証では使っています。後者は寿司と焼き肉です。

f:id:upura:20201019082222p:plain

生存戦略を語るPodcast「keep-alive.fm」に出演しました #keepalivefm

広義のソフトウェアエンジニアが生存戦略を語るPodcast「keep-alive.fm」に出演しました。

anchor.fm

話題

以下が今回のお品書きです。以前から親交のあった@guiltydammyさんと@crcrparさんと一緒に、楽しくお喋りしました。

興味のある部分だけでも、ぜひ聴いてみてください。感想は #keepalivefm でよろしくお願いします。

  • 00:00:00 keep alive fmのドメインを取りました!
  • 00:01:00 本編開始
  • 00:02:00 自己紹介
  • 00:04:20 INMA “30 Under 30 Awards”
    • 国際ニュースメディア協会で今年新設された世界の若手30人に贈られる賞
    • アジア太平洋地域の最優秀賞
    • 大学時代の学生新聞経験と、Kaggleなどデータサイエンスの強み
  • 00:07:00 大学新聞
    • 記者や編集長の立場で、電子版の立ち上げに関わる
    • ページ閲覧数やSNSでの反響を分析
    • 紙以上の世界の広がりを感じて、webの凄さを知る
    • 広告やイベント事業にも関わる
  • 00:14:10 データサイエンス
    • 学生新聞の経験を通じて、データを分析して知見を取り出す楽しさを知った
    • 企業に入った後に趣味としてKaggleを始める
    • Optunaの活用事例
  • 00:28:00 チームか個人か
    • 知識共有が好き
    • 会社への帰属意識
    • 個人としての責任・価値
    • コンフォートゾーン・転職・挑戦
    • データサイエンスが向いている領域
  • 00:50:45 どれくらい先のこと考えている?
    • @upura0 の場合
    • @crcrpar の場合
    • @guiltydammy の場合
    • 答えは分からないながらも考えていくことが大切
    • 人生はA/Bテストできない
    • いろいろ手数を打っていて、気づいたら希少性になった

おわりに

このPodcastの第1回に登場するお三方は、次の記事を拝見して当時から一方的に知っていました。このたびご縁があって出演することになり、感慨深い気持ちです。過去3回も良い話が多いので、ぜひ聴いてみてください。

employment.en-japan.com

Kaggle「OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction」コンペ参加録

Kaggle「OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction」コンペ*1に参加し、銀メダルの77位でした。

f:id:upura:20201007100915p:plain

解法はdiscussion*2に簡単にまとめましたが、公開Notebookからの派生でモデルを作り、CVの良い8つのモデルの平均を取りました。

1位相当の提出もありましたが、理論なき定数倍によるもので、最終選択はできませんでした。

f:id:upura:20201007100920p:plain

同時に終了になったKaggle「OSIC Pulmonary Fibrosis Progression」コンペ*3も地味に参加していたのですが、こちらは銅メダル圏内から転落してメダルなしでした。画像コンペの練習にはなったかなと思います。

今回の最終結果の発表時は「Covid Vaccine Private LB公開を見守る会」なるイベント*4に参加していました。公開前後にワチャワチャ話すのは思いのほか楽しく、参加者が多いコンペのときにまた参加(もしくは企画)したいです。


テストデータの不備が判明した結果、順位表*5が8日に更新されました。順位は58位で変わらず銀メダルでした。

f:id:upura:20201008093105p:plain

SIGNATE「ひろしまQuest2020#stayhome【アイデア部門】」提出資料

以前に参加していたSIGNATE「ひろしまQuest2020#stayhome【アイデア部門】」*1について、自分の提出資料を公開しました。残念ながら入賞はできませんでしたが、興味関心のある野球のデータを分析できて非常に楽しいコンペでした。入賞者以外の成果物共有を許諾してくださったデータスタジアム・SIGNATEのご担当者さまに、改めてお礼申し上げます。

発表資料

※Speaker Deckの仕様で、途中でサイズが変わるPDFに対応していないようです。Speaker Deckのページからダウンロードしてご覧ください。

山手線を徒歩で一周した(3年ぶり2回目)

コロナ禍でしばらく外出自体を控えていましたが、年始以来の久々の徒歩企画です。

upura.hatenablog.com

今回はマスクを装着し、山手線を徒歩で一周しました。3年前の学生時代以来、人生2度目の挑戦です。前回とは逆方向で周ってみました。

upura.hatenablog.com

前回よりも2時間短縮し、8時間でゴールしました。「リングフィットアドベンチャー*1のおかげか、足の疲労も前回ほどではなかったと思います。高輪ゲートウェイ駅の新設など、いろいろ変わっている部分もあり面白かったです。