u++の備忘録

Kaggle「WiDS Datathon 2020」コンペ14位の取り組み

Kaggleで開催されていた「WiDS Datathon 2020」コンペに参加して、public 7位、private 14位でした。shake downしてしまいましたが、ほぼベストの提出を選択できていたので悔いはありません。「検査データから1週間後の生死を当てる」というシンプルなテーブルコンペで、いろんな技術が検証できて面白かったです。

取り組み

既にdiscussionに投稿済の内容を日本語で掲載します。

チームメイトの方と共に、多様なモデルを作りました。それぞれがstackingモデルを作り、最後の2サブとして選択しています。

mtmt モデル

f:id:upura:20200225130710p:plain

u++ モデル

f:id:upura:20200307162246p:plain

LightGBMモデルで試したこと

  • Create {700, 1000, 2000} features
  • Remove {hospitalid, icuid}
  • Do adversarial validation, and remove some features
  • Add residual of other models
  • Parameter tuning by {hand, Optuna}
  • Pseudo labeling by {all data, some data}
  • Impute {apache4ahospitaldeathprob, apache4aicudeathprob}
  • Train with focal loss

Phase 2として、research paperの提出も検討中です。stackingの各モデルのCV, LBをまとめるなど、詳細な情報を盛り込めればと考えています。