u++の備忘録

Kaggle

TF-IDFを用いた「Kaggle流行語大賞2018」【kaggle Advent Calendar 14日目】

本記事は、kaggle Advent Calendar 2018の14日目の記事です。12日目で最後の予定でしたが、穴が空いていたので2日ぶり6回目の投稿です。qiita.com はじめに 本記事では、年の瀬ということで「Kaggle流行語大賞2018」という題材に取り組みます。具体的には、…

Kaggleでソロ銀メダルを取った時にスマホでしていたこと【kaggle Advent Calendar 12日目】

本記事は、kaggle Advent Calendar 2018の12日目の記事です。qiita.com少しネタ要素が強いですが、Kagglerあるあるな記事だと思います。今年の8月に終了した「Santander Value Prediction Challenge」にて、私はソロで銀メダルを獲得できました。upura.haten…

遺伝的プログラミングによる特徴量生成でLightGBMの精度向上【kaggle Advent Calendar 11日目】

本記事は、kaggle Advent Calendar 2018の11日目の記事です。qiita.com 執筆のきっかけ 先日参加したKaggle Tokyo Meetup #5 の ikiri_DS の発表「Home Credit Default Risk - 2nd place solutions -」にて、遺伝的プログラミングで生成した特徴がLocal CV、…

『Kaggle Ensembling Guide』はいいぞ【kaggle Advent Calendar 7日目】

本記事は、kaggle Advent Calendar 2018の7日目の記事です。qiita.comTwitterでこのAdvent Calendarに書く話題を募集したところ、次のようなリプを頂きました。あと Kaggle で多用される Ensemble のテクニックに関する記事も読んでみたいです。特に Stackin…

validationの切り方いろいろ(sklearnの関数まとめ)【kaggle Advent Calendar 4日目】

本記事は、kaggle Advent Calendar 2018の4日目の記事です。qiita.com はじめに 重要な視点 scikit-learnに用意されている関数 KFold StratifiedKFold GroupKFold ShuffleSplit GroupShuffleSplit StratifiedShuffleSplit TimeSeriesSplit 回帰問題の場合 必…

Cross Validationはなぜ重要なのか【kaggle Advent Calendar 3日目】

本記事は、kaggle Advent Calendar 2018の3日目の記事ということにします。本日、このAdvent Calendarに空きがあると気付いたので、穴埋めの形で急遽記事を執筆しました。僕が遅刻したわけではありません。qiita.comTwitterでこのAdvent Calendarに書く話題…

Kaggle Tokyo Meetup #5 にて「kaggler-ja driven learning」の題目で発表しました

本記事は、kaggle その2 Advent Calendar 2018の1日目の記事だったことにしました(2018年12月11日付)。qiita.com12月1日に開催された「Kaggle Tokyo Meetup #5」にて「kaggler-ja driven learning なぜ質問に答え、どう学んでいるか」の題目でLTをしました…

仮説と可視化から新しい特徴量を作る Kaggleのタイタニックを例に

本記事では、Kaggleのタイタニックを例に、仮説と可視化から新しい特徴量を作る過程についてまとめます。 仮説と可視化から新しい特徴量を作る 予測精度に寄与する新しい特徴量を作成するに当たっては、仮説と可視化を繰り返す過程が大事です。 予測精度に寄…

Adversarial Validationのメモ

はじめに 下記の英語記事から要旨を抜粋して、日本語でまとめた。fastml.com fastml.com Adversarial Validationとは いつ使う? TrainデータとTestデータの分布が異なる場合 → Trainデータから適切にValidationデータを作成するのが難しい → Kaggleの場合、…

Kaggle APIとLINE APIを用いたKernelの新規投稿を通知する仕組みの構築

はじめに システムの概要 launchdによる定期実行 Kaggle APIの実行 前回実行時からKernelの情報に差分があるか確認 LINE APIでの通知 デモンストレーション おわりに 脚注 はじめに Kaggle*1において、上位の成績を収めるためには日々投稿されるDiscussionや…

KaggleのSantander Value Prediction Challengeで銀メダルを取るためにしたこと(85th place solution)

注釈 初回公開時から89→90→85位に順位変動しました。Santander Value Prediction Challengeが本日終わり、順位は8985位で銀メダルでした。既にdiscussionに解法を投稿していますが、ブログにも日本語で共有します。 85th place solution 主な戦略は、以下の…

「Kaggleとは〇〇である」何と言えば一般の人に通じるのか問題

最近Kaggleにハマっているのですが、非エンジニアの友人に「Kaggleとは何か」を説明するのが難しいと感じています。本記事では、僕の試行錯誤と結果をまとめます。もし良い説明方法をお持ちの方がいたら、ぜひ教えてください。 想定する説明の状況 サイトで…

KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」のPython実装

今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。github.com アルゴリズムの概要 Pythonでの例 可視化のた…