u++の備忘録

【Kaggle Advent Calendar 2024】2024 年に開催された Kaggle コンペ振り返り

Kaggle Advent Calendar 2024」の 1 日目の記事では、2024 年に開催された Kaggle コンペを振り返ります。

コンペで扱うデータの種類の年次推移

Kaggle に関するデータがまとめられた公式データセットMeta Kaggle」を用いて、コンペティションで扱うデータの種類について年次推移を出力します。 Pythonソースコードと実行結果は以下の通りです。 ただし、メダルやポイントの対象となるコンペに限定しました。 Meta Kaggle の仕様上、開催中のコンペはデータセットに含まれていません。 「year」はコンペの終了年を指し、2024 年 11 月末時点での実行結果を表示しました。

year / Category audio graph image multimodal tabular text video
2013 0 0 0 0 1 1 0
2015 0 0 2 0 20 1 0
2016 0 0 6 0 18 1 0
2017 0 0 12 0 8 4 0
2018 0 0 10 0 5 2 1
2019 1 0 14 0 8 4 1
2020 1 0 10 0 4 4 1
2021 2 0 12 0 4 5 1
2022 1 0 9 0 8 7 1
2023 2 1 7 0 8 5 1
2024 1 0 5 1 4 9 0

2024 年で最も多かったのは、テキスト(text)を題材にしたコンペでした。 2022 年末に ChatGPT が登場して以降の大規模言語モデルの盛り上がりを表している面もあるかもしれません。 次いで多かったのは、画像(image)と表(tabular)でした。 年次推移を見ると、画像は 2017 年ごろから急速にコンペ数が増えています。 表は昔から継続して開催されていることが読み取れます。

なお詳細の説明は割愛しますが、自然言語処理コンペを中心に、データの種類に関するタグが付いていない場合が多かったので、ルールベースでまとめ上げました。 たとえば「analysis > nlp」や「task > text-classification」などのタグを含むコンペに対して「data type > text」のタグも付与されていると見なしています。 具体的な処理は、ソースコードを参照してください。

データの種類ごとの振り返り

データの種類ごとに、2024 年に終了したコンペを振り返ります。

テキスト

2024 年に終了したテキストを扱ったコンペは以下の 9 つでした。 大規模言語モデルを題材にした課題が目立ちました。

画像

2024 年に終了した画像を題材にしたコンペは以下の 5 つでした。 データセットのサイズは数〜数 100 GB と大きく、計算資源の要求も大きくなっている印象があります。

株価、脳活動、エネルギー、債務不履行など、様々な出題がありました。

音声

ここ数年恒例となっている鳥の鳴き声を題材にしたコンペが 2024 年も開催されました。

マルチモーダル

初めてのタグとして、マルチモーダル(multimodal)が登場しました。

その他

今回のルールベースではデータの種類が付与できなかったコンペも 5 つありました。

終わりに

本記事では、2024 年に開催された Kaggle コンペを振り返りました。 「Kaggle Advent Calendar 2024」は明日以降も続きます。 Kaggle 関連のたくさんの記事が読めるのを楽しみにしています。 まだ枠も空いていますので、ご関心あればぜひお気軽にご登録ください。