signate「国立公園の観光宿泊者数予測」コンペで10位でした

本記事は、kaggle Advent Calendar 2018 その2の21日目の記事です。

qiita.com

はじめに
但し書き
コンペの概要
- 関連コンペ
特徴
モデル
その他の試行錯誤
結果
おわりに

はじめに

signateで開催されていた「国立公園の観光宿泊者数予測」コンペに参加し、10位でした。

signate.jp

参加者は471人、一度でも投稿した人が124人だったので、それなりの順位ではありますが、上位陣と大幅に差をつけられてしまい個人的には非常に残念な結果となりました。

本記事では、備忘録も兼ねて、私の解法をまとめておきたいと思います。

但し書き

本記事は、signate「国立公園の観光宿泊者数予測」の参加規約を遵守した範囲で作成しています。

https://signate.jp/competitions/141#terms

「第４条（秘密保持）」には、秘密情報には含まれないものに「開示されたいかなる情報にもよらずに独自に開発した情報（入賞対象者の評価対象提出物を除く）」とあります。私は2018年12月17日の「予測モデルソースコードの提出締切（※入賞候補連絡を受け取った方）」までに連絡を受け取っていないため「入賞対象者」になりえません。

これをもって、参加規約に反しない範囲で本記事を執筆します。

コンペの概要

本コンペでは、8つの国立公園周辺の観光宿泊者数を予測しました。

学習データの期間は「2015/1/1～2016/12/31」、テストデータの期間は「2017/1/1～2017/12/31」でした。

その他に以下のデータが提供されました。また外部データの利用も可能でした。

SNSデータ（株式会社ホットリンク）
ロケーション付SNSデータ（株式会社ナイトレイ）
メッシュ型流動人口データ（株式会社Agoop）
公共交通検索ログデータ（ジョルダン株式会社）
国別月別来訪者数集計データ（株式会社コロプラ）
気象データ（気象庁）
積雪気象観測データ（防災科学技術研究所（NIED））

時系列データの予測というタスクのため「前日以前のデータを元に翌日以降の宿泊者数が予測可能なモデルを作成する」ことが制約条件となっていました。

f:id:upura:20181220132715p:plain
出典：https://signate.jp/competitions/141#abstract

精度評価は「Mean Absolute Error（MAE）」でした。

f:id:upura:20181220140503p:plain

特徴

作成した特徴の概要を以下に示します。

日付に関する特徴

年
月
日
曜日
祝日フラグ
前日休みフラグ
翌日休みフラグ
六曜（大安とか仏滅とか）
循環性をsin, cosに落とし込んだ値

祝日フラグは、手動で作成したので地味に辛かった思い出があります。

「循環性をsin, cosに落とし込んだ値」は、全特徴量の中でも一番効果を発揮していました。下図のように、1月1日から12月31日までで一周するような円を仮定し、それぞれの日付のsin, cosを特徴として抽出します。2年間の学習データが持つ循環性を良い具合に表現できたのではないかと思います。

f:id:upura:20181220140045p:plain

公共交通検索ログデータに関する特徴

このデータは「Recruit Restaurant Visitor Forecasting」における「予約」として見なせると考えました。具体的には、公園別・日別に、前日までに検索された回数を集計して特徴として加えました。

jorudan = pd.read_feather('./data/input/jorudan.feather')

jorudan = jorudan[
    jorudan['access_date'] < jorudan['departure_and_arrival_date']
]

jorudan = jorudan.groupby(
    ['departure_and_arrival_date', 'park']
).count()['access_date'].reset_index()

この特徴は「循環性をsin, cosに落とし込んだ値」に次いで効果を発揮しました。