Kaggle「WiDS Datathon 2020」コンペ14位の取り組み
Kaggleで開催されていた「WiDS Datathon 2020」コンペに参加して、public 7位、private 14位でした。shake downしてしまいましたが、ほぼベストの提出を選択できていたので悔いはありません。「検査データから1週間後の生死を当てる」というシンプルなテーブルコンペで、いろんな技術が検証できて面白かったです。
取り組み
既にdiscussionに投稿済の内容を日本語で掲載します。
チームメイトの方と共に、多様なモデルを作りました。それぞれがstackingモデルを作り、最後の2サブとして選択しています。
mtmt モデル
u++ モデル
LightGBMモデルで試したこと
- Create {700, 1000, 2000} features
- Remove {hospitalid, icuid}
- Do adversarial validation, and remove some features
- Add residual of other models
- Parameter tuning by {hand, Optuna}
- Pseudo labeling by {all data, some data}
- Impute {apache4ahospitaldeathprob, apache4aicudeathprob}
- Train with focal loss
Phase 2として、research paperの提出も検討中です。stackingの各モデルのCV, LBをまとめるなど、詳細な情報を盛り込めればと考えています。