「Kaggle Advent Calendar 2024」の 5 日目の記事です。 2023 年 12 月に出版された『Developing Kaggle Notebooks: Pave your way to becoming a Kaggle Notebooks Grandmaster』(Packt)の書籍メモです。 なお同書は、著者の Gabriel Preda さん のご厚意でご恵贈いただきました。
翻訳版
日本語訳版の『グランドマスター三冠のKaggleノートブック開発術 単変量解析から地理情報分析/偽動画検出/LLMまで』が、2025 年 2 月に出版されます。
書籍の概要
Kaggle の Datasets/Notebooks/Discussions の 3 部門で Grandmaster の称号を持つ Gabriel Preda さんによる書籍です。 Kaggle Notebooks を活用しながら、さまざまな種類のデータセットの分析技術を学びます。
主要な特徴として掲げられている話題は、次の 3 点です。
- ベースラインモデル構築のためのデータの取り込み・クリーニング・探索の基本の習得
- 表・テキスト・画像・動画・波形など、さまざまな種類のデータの処理
- ノートブックの説得力を高めるためのスタイルと可読性の向上
日本語訳版のサイトから引用した目次は以下の通りです。 より具体的に扱う内容については、GitHub で公開されているサンプルコードが参考になります。
【本書の構成】
第1章 Kaggleの基本
第2章 Kaggleノートブックの準備
第3章 Kaggleという旅の始まり―タイタニック号事件を分析
第4章 単変量/2変量/地理空間を分析―パブとスターバックス
第5章 分析コンペティションでの効果的なアプローチ
第6章 画像データ分析―ミツバチの亜種を予測
第7章 テキスト分析―単語埋め込み、双方向LSTM、Transformer
第8章 音響信号によるLANL地震予測
第9章 ディープフェイク動画の検出
第10章 Kaggleモデルと生成AI
第11章 旅の終わり―高品質化と高評価のために
所感
原著である英語版を読んだ上での感想を以下に綴ります。 総じて、Kaggle Notebook のサンプルコードとクラウドリソースを使いながら、データ分析の幅広い世界を知る導入として良い書籍だと思います。
- 定番の「タイタニック」から始まり、地理空間・画像・テキスト・波・動画など、さまざまな種類のデータ分析事例を概観できる。
- それぞれコンペに紐づいた紹介になるが、概要とデータ可視化、最初の機械学習モデル構築くらいまでが対象で、上位に行くための解法を丁寧に解説する趣旨ではない。たとえば第9章は動画の読み込みと簡単な検出の処理まで。
- 第10章では、Kaggle Notebook 上で大規模言語モデルの検索拡張生成(RAG)に取り組む。これまでの Kaggle 関連書籍にはなかった題材。
- GitHub のサンプルコードが充実しており参考になる。ただし 1 年前に出版された書籍なので、特に大規模言語モデル関連では Llama 2 を使うなど最新ではない部分もある。
終わりに
本記事では、2023 年 12 月に出版され、2025 年 2 月に日本語訳版が発売される『Developing Kaggle Notebooks: Pave your way to becoming a Kaggle Notebooks Grandmaster』の概要と所感を書きました。