u++の備忘録

Kaggle

regonn&curry.fm にゲスト参加しました

少し日は経ってしまいましたが、データサイエンス・機械学習(主にKaggle)について話すPodCast「regonn&curry.fm」にゲスト参加しました。先日発行した拙著*1などについて、共著者のカレーさんも含めてざっくばらんにお話しています。 ご興味あれば、ぜひお聴…

「AutoGluon-Tabular」を試してみる

AutoML「AutoGluon-Tabular」が、少なくとも私の観測範囲の中で局所的に話題になっています。 構造化データに対するAutoMLとしてAutoGluon-Tabularは基本モデルを積み重ねる多層スタックアンサンブルを利用。各層は前層の予測結果と入力を受け取り、過学習を…

【論文メモ】「第24回 人工知能学会 金融情報学研究会」で気になった発表

「第24回 人工知能学会 金融情報学研究会(SIG-FIN)」*1で気になった発表をいくつか読みました。 昨年10月の第23回が台風接近の影響で中止*2となり、今回も新型コロナウイルスの影響で中止*3となってしまいました。今回は「発表扱い」で原稿も公表されたの…

【書籍メモ】『PythonではじめるKaggleスタートブック』(講談社)

共著で執筆した、3月17日発売の『PythonではじめるKaggleスタートブック』(講談社)が手元に届きました。 本記事では、本書の関連リンクをまとめました。以前に書いた告知記事については、補足情報も付与します。 Amazon www.amazon.co.jp サンプルコード g…

CatBoostのテキストカラム指定機能を試す

CatBoostの(カテゴリカラム指定ならぬ)テキストカラム指定機能を試してみました。本記事の内容は、discussion*1に投稿済です。 Kaggle「Real or Not? NLP with Disaster Tweets」*2コンペのデータセットを利用しました。 target_col = 'target' text_cols …

「Linear Quiz Blending」の概説

"Linear Quiz Blending" や "Netflix Blending" と呼ばれる技法について、少し前にまとめたスライドを公開しました。 少し前からKaggleをやっている方だと「Kaggle Tokyo Meetup #5」*1での、Kaggle Grandmasterのsmlyさんの発表が印象的かもしれません。 Ka…

Kaggle「WiDS Datathon 2020」コンペ解法まとめ

先日まで参加していたKaggle「WiDS Datathon 2020」コンペの解法まとめです。「検査データから1週間後の生死を当てる」というシンプルなテーブルコンペでした。本記事では、自分の復習用にザッとまとめたメモを共有します。 Place Link 1 https://www.kaggle…

「NLPコンペの知見を実務に活かすために」の題目で発表しました

本日開催された「Kaggle Google Quest Q&A Labeling 反省会」*1にて「NLPコンペの知見を実務に活かすために」の題目で発表しました。自作のPythonライブラリ「Ayniy」について、設計思想や具体例を紹介しました。 詳細な内容については然るべきタイミングで…

Kaggle「WiDS Datathon 2020」コンペ14位の取り組み

Kaggleで開催されていた「WiDS Datathon 2020」コンペに参加して、public 7位、private 14位でした。shake downしてしまいましたが、ほぼベストの提出を選択できていたので悔いはありません。「検査データから1週間後の生死を当てる」というシンプルなテーブ…

【論文メモ】Self-training with Noisy Student improves ImageNet classification

twitterで流れてきたGoogleの論文が、最近のKaggleでも頻繁に使われる「Pseudo Labeling」を拡張した興味深いものでした。本記事では、簡単にこの論文を紹介します。 Last week we released the checkpoints for SOTA ImageNet models trained by NoisyStude…

Kaggle PetFinderコンペで優勝しました

Kaggleで開催されていた「PetFinder.my Adoption Prediction」コンペ*1で優勝しました*2。素晴らしいチームメイトに恵まれた思い出深いコンペです。開催から1年近く経過した今でもチーム「Wodori」のSlackでは活発に議論が交わされており、常に互いに刺激を…

ニューズレター「Weekly Kaggle News」創刊

「Weekly Kaggle News」と冠したニューズレター*1を始めてみました。www.getrevue.co日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱う予定です。週次で、毎週金〜日ごろの更新を予定しています。個人的に、SNSが存分に普及…

ProbSpace給与推定コンペまとめ

「ProbSpace」というプラットフォームで開催された「給与推定」コンペが23日に終了しました。私は途中で まぐちさん とチームを組み、最終順位は7位でした。 prob.space PublicとPrivateが分かれていないのは残念でしたが、恐らく独自に作成したデータセット…

「Kaggle Days Tokyo」参加録

※ 「Kaggle Advent Calendar 2019」*1の12日目の記事です。2019年12月11、12日に開催された「Kaggle Days Tokyo」*2に参加しました。1日目はワークショップとプレゼンテーション、2日目はオフラインコンペティションが開催されました。資料や動画は恐らく公…

TF-IDFを用いた「Kaggle流行語大賞2019」

「kaggle その2 Advent Calendar」の10日目の記事です*1。2018年に引き続き、2019年もTF-IDFを用いた「Kaggle流行語大賞」を算出します。具体的には、2019年に公開されたNotebookのタイトル情報から、頻繁に登場した単語をランキング形式でまとめました。な…

Japan.R 2019にて「KaggleとRコンペの紹介」の題目で発表しました

「kaggle その2 Advent Calendar」の7日目の記事です*1。本日開催された「Japan.R 2019」*2にて「KaggleとRコンペの紹介」の題目で発表しました。TokyoRでは2度発表したことがあるのですが*3*4、JapanRは初参加でした。幅広い世代の方が多様なジャンルの発表…

小数点以下を取り出す特徴量エンジニアリングの解釈と実装

Couseraの「How to Win a Data Science Competition: Learn from Top Kagglers」*1などで紹介されている特徴量エンジニアリングのアイディアの一つとして「数値データの小数点以下を取り出す」という技法があります。本記事では簡単な解釈を述べ、Pythonによ…

Pythonを用いたKaggle入門書を2020年3月に講談社から出版します

このたびご縁があり、Pythonを用いたKaggle入門書を講談社から出版する運びとなりました*1。現在デザインや校正などを進めている段階で、発売開始は2020年3月17日を予定しています。https://www.amazon.co.jp/dp/4065190061同人誌ながら累計2500部以上を売り…

「マイナビ × SIGNATE Student Cup 2019: 賃貸物件の家賃予測」まとめ

はじめに 一覧 コンペ概要 評価関数 データ コンペ設計 表彰 予測精度賞(1位解法) 前処理・特徴量エンジニアリング 建物IDの付与 同一建物内での回帰モデル CatBoost Stacking Stratified Stacking Adaptive Stacking アイデア賞 賃料と合わせて緯度・経度…

「初手LightGBM」をする7つの理由

Kaggleなどのデータ分析コンペでテーブルデータを扱う場合、最近は取りあえずLightGBMを利用する場合が多いです。本記事では、初手の機械学習アルゴリズムとして「LightGBM」*1を採用する理由を紹介します。あくまで2019年10月末時点での個人の主観なので、…

Adversarial Validationを用いた特徴量選択

先日公開した「IEEE-CIS Fraud Detection」コンペの解法*1の中で、Adversarial Validationを用いた特徴量選択について何回か質問がありました。本記事では、Adversarial Validationを用いた特徴量選択を解説します。 Adversarial Validationとは いつ使う? …

「Kaggle Grandmasterに聞く!-トップデータサイエンティストの過去・現在・未来-」に登壇しました

データサイエンティスト協会 6thシンポジウム「Kaggle Grandmasterに聞く!-トップデータサイエンティストの過去・現在・未来-」に、モデレーターとして登壇しました。www.datascientist.or.jp私がGrandmasterのJackさん、Onoderaさんに質問する形式のパネ…

Kaggle「IEEE-CIS Fraud Detection」コンペ参加録

Kaggle「IEEE-CIS Fraud Detection」コンペに個人で参加して、2485位でした。public lb スコアだと2800位程度の提出でshake upを狙ったのですが妥当な結果に終わった次第です。本記事では、discussionに投稿した内容を基に、本コンペでの取り組みをまとめま…

【書評】『Kaggleで勝つデータ分析の技術』(技術評論社)

限定の先行販売*1で紙版を入手した『Kaggleで勝つデータ分析の技術』(技術評論社)を読みました。なお電子版をご恵贈いただく予定です。gihyo.jp10月7日の発売を待たずして Amazon*2のベストセラー1位になるなど、注目を集めています。既に著者の一人である…

AI×愛知の「AIchi勉強会」でKaggleの魅力について発表しました

愛知県名古屋市で開催された「AIchi勉強会」で、Kaggleの魅力について発表しました。愛知県出身という縁でお声がけいただいた形です。 愛知県の製造業の異なる会社で働く、AI・機械学習に興味を持つメンバー3人中心に「愛知県で会社を越えてAIに興味ある人、…

テーブルデータ向けのGAN(TGAN)で、titanicのデータを増やす

はじめに ynktk さんのツイート*1を見て、テーブルデータ向けの GAN の存在を知りました。本記事では、TGAN を用いて titanic のデータを拡張してみます。 TGANとは テーブルデータに対応した GAN (Generative Adversarial Network, 敵対的生成ネットワーク)…

【ネタバレ有】『アルキメデスの大戦』とデータ分析の仕事

はじめに OsciiArtさんの下記のツイートで興味を持ち、観に行きました。本記事では、ネタバレ要素を含みつつ、徒然と感想を書いていこうと思います。『アルキメデスの大戦』を観た。傑作。kaggler、データサイエンティストは絶対に見て欲しい。kaggleのプロ…

scikit-learn-contrib の Metric Learning を試す

Metric Learning について Metric Learning は、データの教師情報を基にデータ間の距離や類似度などの Metric を学習する手法です。日本語で手軽に読める記事だと、*1, *2 などが詳しいです。このたび、phalanx さんの tweet *3で、 Metric Learning の基礎…

【特徴量の追加編】機械学習を用いた大相撲千秋楽の勝敗予想

はじめに 「連勝・連敗」特徴量の追加 tsfresh特徴量の追加 おわりに はじめに 前回は、「Sports Analyst Meetup #4」でのLTに向けて、ベンチマークとなる機械学習モデルを構築しました。新しい特徴量を追加することで、予測モデルの性能が向上することも確…

【ベンチマーク編】機械学習を用いた大相撲千秋楽の勝敗予想

はじめに ベンチマークの構築 特徴量 目的変数 機械学習モデル Validation の構築 評価性能 新しい特徴量の追加 追加する特徴量 評価性能(新しい特徴量の追加) おわりに はじめに 前回は、「Sports Analyst Meetup #4」でのLTに向けて、「Sumo Reference」…