u++の備忘録

Kaggle

Kaggle の Code Competitions で処理済ファイルやライブラリを使う

近年の Kaggle では、参加者が Kaggle の Code 環境上でソースコードを実行する「code competitions」形式でのコンペ開催が増えています。実行時間や処理内容など諸条件はコンペごとに異なります*1が、モデルの学習を事前に実施し、評価用データセットに対す…

Solafune「夜間光データから土地価格を予測」コンペ 6 位解法

衛星データに関するコンペティションプラットフォーム「Solafune」で開催されていた「夜間光データから土地価格を予測」コンペ*1で、 6 位になりました。終了直前の参加だったので、優勝した方が公開していた特徴量に少し足して、pseudo labeling で水増しし…

Kaggle Notebooks Master になった

2018 年の GW に Kaggle を本格的に始めて丸 3 年、Notebooks カテゴリで Master の称号を獲得しました。 2019 年 4 月に終了したコンペでチームメイトにも恵まれ金メダルを獲得できた後、入門記事や入門書など、主に日本人参加者の Kaggle に対する障壁を下…

中国語繁体字版『PythonではじめるKaggleスタートブック』

昨年4月に出版した書籍『PythonではじめるKaggleスタートブック』(講談社)*1の中国語繁体字版が、今月出版されました。原著も第3刷&電子版好調らしく、時間をかけた執筆作業が報われている気分です。 books.gotop.com.tw 他言語版ということで、サポート…

言語処理学会第27回年次大会ワークショップ「AI王 〜クイズAI日本一決定戦〜」参加録

言語処理学会第 27 回年次大会のワークショップとして開催されていた「AI王 〜クイズAI日本一決定戦〜」*1に参加しました。Kaggle などで親交のある atfujita さんとのチームで、最終結果は 5 位でした。 コンペ概要 日本語の 20 択のクイズ問題に回答する課…

国際会議「ACM WSDM」のワークショップ「Booking.com Data Challenge」で6位に

国際会議「ACM WSDM」のワークショップとして開催されていた「Booking.com Data Challenge」*1で6位に入りました*2。Wantedly の hakubishin3 さんと Yuya Matsumura さん とのチームで、解法をまとめた論文は同ワークショップに採択・公開されました*3。同…

「Weekly Kaggle News」を横断検索できる仕組みを作った

概要 毎週金曜日に更新しているニューズレター「Weekly Kaggle News」を横断検索できる仕組みを作りました GitHubのレポジトリに全データを蓄積し、左上の検索ボックスからレポジトリ内を検索できます 最新号のデータをAPIで取得し、GitHub Actionsで自動更…

「Weekly Kaggle News」1周年&購読者数1400人達成

「Kaggle Advent Calendar」 の20日目の記事です。 1年前に始めたニューズレター「Weekly Kaggle News」が1周年を迎えました。日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱っています。週次で毎週金曜日に更新しており、1…

「#7 CA x atmaCup 2nd 振り返り回」でLTしました

「#7 CA x atmaCup 2nd 振り返り回」*1でLTしました。5位解法とともに、チームマージでの取り組みを具体的に紹介しました。 *1:atma.connpass.com

TF-IDFを用いた「Kaggle流行語大賞2020」

Kaggle Advent Calendar の8日目の記事です。 2018年、2019年に引き続き、今年もTF-IDFを用いた「Kaggle流行語大賞」を算出します。具体的には、2020年に公開されたNotebookのタイトル情報から、頻繁に登場した単語をランキング形式でまとめました。 2018年*…

ニュースメディアでの機械学習活用事例について「Google Developers ML Summit」で登壇(12月3日)

12月3日に「Google Developers ML Summit」に登壇します。もう1年近く経ってしまった「Kaggle Days Tokyo」の話も含めて、会社での機械学習の活用事例を紹介する予定です。17:10-18:00の枠で、質問も受け付ける予定です。ご興味ある方はぜひご覧ください。 …

Basketball Behavior Challenge 1st Place Solution

本記事について 「スポーツアナリティクス Advent Calendar 2020」*1の1日目の記事です。 12月13日開催の「Sports Analyst Meetup #9」*2で発表予定の内容をまとめました。 概要 2019年12月〜2020年9月に開催されていた「Basketball Behavior Challenge: BBC…

データサイエンティスト協会シンポジウムのKaggleセッションに登壇(11月10日)

11月10日にデータサイエンティスト協会シンポジウムで、毎年恒例のKaggleセッションを実施します。 11月10日にデータサイエンティスト協会シンポジウムで、毎年恒例のKaggleセッションを実施します。今年のテーマは「Kaggler枠」で、企業によるKaggler支援を…

日本語BERTを用いた会社名の埋め込み

以前に参加したNishika「財務・非財務情報を活用した株主価値予測」コンペ*1で検討していたタイトルの技術について、別コンペで使う可能性があったので改めてコードを整理していました。結局使わなかったですが、せっかくまとめたのでブログ記事として供養し…

「SciPy Japan 2020」で Kaggle チュートリアルを担当(10月30日)

10月30日からオンライン開催される「SciPy Japan 2020」にて、初日朝9:00〜12:30のチュートリアル講座を担当します。本記事では「SciPy Japan」の紹介と、参加される方向けのご案内を掲載します。 Tutorial: Pythonで機械学習コンペティション「Kaggle」をは…

「AWS DEV DAY ONLINE JAPAN」のKaggleセッションに登壇(10月21日)

「AWS DEV DAY ONLINE JAPAN」のKaggleセッションに登壇します。10月21日15:50〜16:20のブレイクアウトセッションです。 E-9 : kagglerが語る「コンペとキャリアとビジネスと私」 aws.amazon.com 元「専業Kaggler」の currypurinさん と、AWSの atfujitaさん…

Kaggle「OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction」コンペ参加録

Kaggle「OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction」コンペ*1に参加し、銀メダルの77位でした。 解法はdiscussion*2に簡単にまとめましたが、公開Notebookからの派生でモデルを作り、CVの良い8つのモデルの平均を取りました。 1位相当の提…

Google Cloud「Ask the Expert」に出演しました

Google Cloudのインタビュー企画「Ask the Expert」に出演しました。会社での取り組みやKaggleの楽しさなどを話しました。 developers-jp.googleblog.com togetter でのまとめはこちら。 togetter.com

非負値行列因子分解を用いたKaggleコンペ推薦

非負値行列因子分解を用いて、Kaggleコンペを推薦する仕組みを考えました。 手法 実験 データセット 実装 デモアプリ 今後の展望 コールドスタート デプロイ おわりに 手法 いくらでも高度なやり方はあり得ますが、手っ取り早い方法として行列分解を試しまし…

「Basketball Behavior Challenge BBC2020」で4チーム中1位に

9月1日まで開催されていた「Basketball Behavior Challenge BBC2020」*1というコンペで1位になりました*2。選手とボールの座標推移からスクリーンプレイの有無を判定するタスクで、分析していて楽しいコンペでした。 解法の概要とスコアの推移は下図の通りで…

Kaggleの「おすすめコンペは何?」への答えを考えた

「Rist主催 Kaggle Workshop #1」にてLT発表しました。テーマは「おすすめコンペは何?」という質問への答え方です。発表資料やプレゼンテーション動画を掲載したので、ご興味あらばご覧いただければと思います。 最近Kaggle系のイベントに飢えていたので、…

ProbSpace「YouTube動画視聴回数予測」コンペ参加録

ProbSpaceで開催されていた「YouTube動画視聴回数予測」コンペに参加しました。Lain.さんとチームを組み、public 4位・private 6位でした。 prob.space コンペ概要 YouTube APIで取得できるメタデータを入力として、動画の視聴回数を予測するタスクでした。…

「atmaCup#5 振り返り会」で「MLflow Tracking を用いた実験管理」について発表しました

昨日開催された「atmaCup#5 振り返り会」*1で「MLflow Tracking を用いた実験管理」について発表しました。本記事にリンク集を掲載します。 発表資料 コンペで使用していたGitHubリポジトリ https://github.com/upura/atma-comp05 自作ライブラリ「Ayniy」の…

「atmaCup オンサイトデータコンペ#5」参加録 #atmaCup

「atmaCup オンサイトデータコンペ#5」*1に参加し、public 16位・private 27位*2でした。観測データを基にした2値分類タスクで、指標はPR-AUC*3でした。 途中から K_mat さん*4 とチームマージし、テーブルデータに対するニューラルネットワーク周りなど、大…

Nishika「財務・非財務情報を活用した株主価値予測」コンペ2位でした

Nishikaで開催されていた「財務・非財務情報を活用した株主価値予測」コンペ*1で、2位になりました。 オープンデータのコンペなので、pipelineを整備しながら、のんびりと取り組みました。最終的にはLightGBMとCatBoostで3種類の予測値(public 19位, 19位, …

Jupyter Notebook の CSS 要素を編集する

Jupyter Notebook の CSS 要素を編集する方法に関するTipsです。IPython.core.displayを用いて、次のようにCSS要素を編集できます。 from IPython.core.display import display, HTML display(HTML("<style>.cm-s-ipython span.cm-comment { color: red; }</style>")) こん…

YouTubeチャンネル「uΔΔTube」開設

昨今の外出自粛要請を受け自宅に籠もる時間が増えたので、前々から興味があったYouTubeチャンネルを開設しました。 www.youtube.com 投稿動画 現時点で2本の動画を公開しています。 Kaggle NotebookのCommit方法(2020年4月3日時点) 1本目は、先月出版した…

regonn&curry.fm にゲスト参加しました

少し日は経ってしまいましたが、データサイエンス・機械学習(主にKaggle)について話すPodCast「regonn&curry.fm」にゲスト参加しました。先日発行した拙著*1などについて、共著者のカレーさんも含めてざっくばらんにお話しています。 ご興味あれば、ぜひお聴…

「AutoGluon-Tabular」を試してみる

AutoML「AutoGluon-Tabular」が、少なくとも私の観測範囲の中で局所的に話題になっています。 構造化データに対するAutoMLとしてAutoGluon-Tabularは基本モデルを積み重ねる多層スタックアンサンブルを利用。各層は前層の予測結果と入力を受け取り、過学習を…

【論文メモ】「第24回 人工知能学会 金融情報学研究会」で気になった発表

「第24回 人工知能学会 金融情報学研究会(SIG-FIN)」*1で気になった発表をいくつか読みました。 昨年10月の第23回が台風接近の影響で中止*2となり、今回も新型コロナウイルスの影響で中止*3となってしまいました。今回は「発表扱い」で原稿も公表されたの…