u++の備忘録

KaggleのSantander Value Prediction Challengeで銀メダルを取るためにしたこと(85th place solution)

注釈

初回公開時から89→90→85位に順位変動しました。

Santander Value Prediction Challengeが本日終わり、順位は8985位で銀メダルでした。既にdiscussionに解法を投稿していますが、ブログにも日本語で共有します。

f:id:upura:20180821095435p:plain

85th place solution

主な戦略は、以下の組み合わせです。

  • "leak" が発表される以前から作成していた単一のlightGBMモデル
  • @amrrs らによる "leak" 発見モデル

単一のモデルでは、Public LBで1.37を得ていました(ローカルcvでは1.30でした)。

また、次のように "leak" を利用しています。

df1[~test_leak['compiled_leak'].isnull()] = df0[~test_leak['compiled_leak'].isnull()]

ここで、df1, df0, test_leakは下記の通りです。

  • df1は単一モデルのsubmission csvファイル
  • df0は@amrrsのsubmission csvファイル
  • test_leakは@amrrs'sの "test_leak.csv"

もちろん、こちらは概要で、実際にはもっと色々なことを試しています。

Santander Value Prediction Challengeに携わった全ての方々に感謝したいと思います!

English

85th place solution

The main strategy is the combination of the following:

  • The single lightGBM model I've created before discovering"leak"
  • The "leak" finding model shared by @amrrs

With a single model, I got 1.37 on public LB (and 1.30 on local cv).

In addition, I utilize "leak" in the following way:

df1[~test_leak['compiled_leak'].isnull()] = df0[~test_leak['compiled_leak'].isnull()]

where

  • df1 is the submission csv file of my single model
  • df0 is the submission csv file of @amrrs's
  • test_leak is "test_leak.csv" of @amrrs's

Of course, this is a simple description and I've tried a lot more.

I'd like to thank everyone involved in Santander Value Prediction Challenge!