「Kaggle Advent Calendar 2024」の 1 日目の記事では、2024 年に開催された Kaggle コンペを振り返ります。
コンペで扱うデータの種類の年次推移
Kaggle に関するデータがまとめられた公式データセット「Meta Kaggle」を用いて、コンペティションで扱うデータの種類について年次推移を出力します。 Python のソースコードと実行結果は以下の通りです。 ただし、メダルやポイントの対象となるコンペに限定しました。 Meta Kaggle の仕様上、開催中のコンペはデータセットに含まれていません。 「year」はコンペの終了年を指し、2024 年 11 月末時点での実行結果を表示しました。
year / Category | audio | graph | image | multimodal | tabular | text | video |
---|---|---|---|---|---|---|---|
2013 | 0 | 0 | 0 | 0 | 1 | 1 | 0 |
2015 | 0 | 0 | 2 | 0 | 20 | 1 | 0 |
2016 | 0 | 0 | 6 | 0 | 18 | 1 | 0 |
2017 | 0 | 0 | 12 | 0 | 8 | 4 | 0 |
2018 | 0 | 0 | 10 | 0 | 5 | 2 | 1 |
2019 | 1 | 0 | 14 | 0 | 8 | 4 | 1 |
2020 | 1 | 0 | 10 | 0 | 4 | 4 | 1 |
2021 | 2 | 0 | 12 | 0 | 4 | 5 | 1 |
2022 | 1 | 0 | 9 | 0 | 8 | 7 | 1 |
2023 | 2 | 1 | 7 | 0 | 8 | 5 | 1 |
2024 | 1 | 0 | 5 | 1 | 4 | 9 | 0 |
2024 年で最も多かったのは、テキスト(text)を題材にしたコンペでした。 2022 年末に ChatGPT が登場して以降の大規模言語モデルの盛り上がりを表している面もあるかもしれません。 次いで多かったのは、画像(image)と表(tabular)でした。 年次推移を見ると、画像は 2017 年ごろから急速にコンペ数が増えています。 表は昔から継続して開催されていることが読み取れます。
なお詳細の説明は割愛しますが、自然言語処理コンペを中心に、データの種類に関するタグが付いていない場合が多かったので、ルールベースでまとめ上げました。 たとえば「analysis > nlp」や「task > text-classification」などのタグを含むコンペに対して「data type > text」のタグも付与されていると見なしています。 具体的な処理は、ソースコードを参照してください。
データの種類ごとの振り返り
データの種類ごとに、2024 年に終了したコンペを振り返ります。
テキスト
2024 年に終了したテキストを扱ったコンペは以下の 9 つでした。 大規模言語モデルを題材にした課題が目立ちました。
- Linking Writing Processes to Writing Quality
- タイピングの挙動から、エッセイの品質を予測
- LLM - Detect AI Generated Text
- 大規模言語モデルで生成されたテキストかを判定
- LLM Prompt Recovery
- 大規模言語モデルの出力から指示(prompt)を再現
- The Learning Agency Lab - PII Data Detection
- テキストから個人に関連する情報を特定
- AI Mathematical Olympiad - Progress Prize 1
- LaTeX 形式で書かれた数学問題を解くモデルを開発
- Learning Agency Lab - Automated Essay Scoring 2.0
- 学生の小論文を採点
- LMSYS - Chatbot Arena Human Preference Predictions
- 大規模言語モデルを搭載したチャットボットの回答から、ユーザの嗜好を予測
- USPTO - Explainable AI for Patent Professionals
- 特許文書の集合を抽出できるような検索クエリを生成
- LLM 20 Questions
- Yes/No で答えられる 20 個の質問で秘密の単語を当てるゲームに取り組む対戦型のコンペ
画像
2024 年に終了した画像を題材にしたコンペは以下の 5 つでした。 データセットのサイズは数〜数 100 GB と大きく、計算資源の要求も大きくなっている印象があります。
- UBC Ovarian Cancer Subtype Classification and Outlier Detection (UBC-OCEAN)
- 卵巣がんの分類
- SenNet + HOA - Hacking the Human Vasculature in 3D
- 腎臓の血管のセグメンテーション
- Image Matching Challenge 2024 - Hexathlon
- 画像から正確な空間表現を生成
- ISIC 2024 - Skin Cancer Detection with 3D-TBP
- 3 次元全身写真から皮膚がんを検出
- RSNA 2024 Lumbar Spine Degenerative Classification
- 腰椎 MR 画像を用いた変性脊椎疾患の検出と分類
表
株価、脳活動、エネルギー、債務不履行など、様々な出題がありました。
- Optiver - Trading at the Close
- ナスダック上場銘柄の終値の動きを予測
- HMS - Harmful Brain Activity Classification
- 重症患者の発作など、有害な脳活動のパターンを分類
- Enefit - Predict Energy Behavior of Prosumers
- エネルギーの生産・消費を予測
- Home Credit - Credit Risk Model Stability
- 潜在顧客の債務不履行の可能性を評価
音声
ここ数年恒例となっている鳥の鳴き声を題材にしたコンペが 2024 年も開催されました。
- BirdCLEF 2024
- 鳥の鳴き声を分類
マルチモーダル
初めてのタグとして、マルチモーダル(multimodal)が登場しました。
その他
今回のルールベースではデータの種類が付与できなかったコンペも 5 つありました。
- Santa 2023 - The Polytope Permutation Puzzle
- 毎年恒例の数理最適化を題材にしたコンペ
- March Machine Learning Mania 2024
- 毎年恒例の大学バスケットボール大会の結果を予測するコンペ
- NeurIPS 2024 - Predict New Medicines with BELKA
- 特定のタンパク質に対する低分子の結合親和性を予測
- LEAP - Atmospheric Physics using AI (ClimSim)
- 大気物理学を模倣するようなモデルを構築
- ARC Prize 2024
- 初見の推論問題を解くシステムを開発
終わりに
本記事では、2024 年に開催された Kaggle コンペを振り返りました。 「Kaggle Advent Calendar 2024」は明日以降も続きます。 Kaggle 関連のたくさんの記事が読めるのを楽しみにしています。 まだ枠も空いていますので、ご関心あればぜひお気軽にご登録ください。