※ 「Kaggle Advent Calendar 2022」の 25 日目の記事です
ご縁があって、講談社から共著で『Kaggleに挑む深層学習プログラミングの極意』を出版します。 画像・自然言語処理の機械学習コンテストを題材として、深層学習ライブラリ「PyTorch」での実装を交えながら、著者らの経験に基づく知見をまとめました。 Amazon ページ が先日公開され、ありがたいことに発売前にもかかわらず「ベストセラー1位」の記載が付きました。 現在は出版に向けた最終の校正中で、ご期待に沿えるよう精一杯の作業を進めていきます。
書籍と担当章の紹介
著者は 4 人で、私は過去の Kaggle 関連書籍や「Weekly Kaggle News」の経験を活かし、まえがきから第 2 章まで担当しました。細かな目次は講談社の書籍ページに掲載されています。
第1章「機械学習コンテストの基礎知識」では、特に近年の動向に焦点を当て、機械学習コンテストの概要を紐解いていきます。 コンテストの仕組みや歴史、扱うデータセットや課題、必要となる計算資源について紹介しました。 特に画像・テキストを題材としたコンテストの存在感が増している点を強調しています。
機械学習コンテストの参加者が取り組む過程として、大まかに「探索的データ分析」「モデルの作成」「モデルの検証」「性能の向上」という4つが存在します。 第2章「探索的データ分析とモデルの作成・検証・性能向上」ではそれぞれの観点に焦点を当て、基本的な考え方や技法を紹介しました。 特に画像やテキストを用いるコンテストに取り組む上で前提となる知識の整理を目的としています。
- 2.1 探索的データ分析
- 2.2 モデルの作成
- 2.3 モデルの検証
- 2.4 性能の向上
ここまで紹介した前提知識を基に、第 3 章以降は、画像分類・画像検索・テキスト分類のコンテストに挑戦します。 画像分類は iwiwi さん、画像検索は smly / Kohei さん、テキスト分類は flowlight さん が執筆を担当しました。 今回担当した領域を中心に、数多くのコンテストで優れた成績を収めています。 私がプログラミング自体を始める以前から、コンテストに限らず幅広く活躍されている方々で、個人的な思い出も含めて他己紹介を書き始めるとキリがありません。 豪華な著者陣の中に混ぜていただき、非常に光栄に思っています。
画像・自然言語処理に関する領域は、2022 年現在急速に進展を遂げています。 書籍として体系的にまとめ上げるのは難しい面もありましたが、著者らの経験や Kaggle での傾向を軸に、画像・テキストを題材としたコンテストに臨む上で重要な要点は盛り込めていると感じています。 この書籍が、この領域を学びたい読者にとっての道標となることを祈っています。
執筆自体は分業の形で進めましたが、毎月 1 回の頻度で著者での打ち合わせを実施し、書籍に関する議論を重ねてきました。 書籍のまえがきに記載しましたが、ある程度書籍が仕上がった段階で、有識者の皆さまにも丁寧なレビューをしていただきました。 現在進行形で、出版を担当する講談社および講談社サイエンティフィクの皆さまにも、編集者の観点でさまざまなコメントを頂いています。 この場を借りて、改めてお礼申し上げます。
対象読者と扱う範囲
対象読者は、機械学習コンテストに参加している方や、これから参加しようとしている方です。 ただし、機械学習コンテストに取り組む上で必要な知見は、より幅広く活用できる余地があります。 この書籍では予測性能を高めるという観点で、一般的な書籍にはあまり書かれていない暗黙知や技法を記載しました。 画像やテキストを題材に予測モデルを構築しようとする方々にも、より広く参考にしてもらえればと考えています。
この書籍では、いち早く機械学習コンテストに挑戦するという目的のもと、理論の解説を割愛している部分があります。 もちろん理論を体系立てて物事を学ぶことは、いつの時代も間違いなく大切です。 一方で機械学習コンテストに挑むという観点では、まず手を動かしながら必要に応じて理論面を補うという学び方も十分にあり得ると考えています。
データ分析全般や機械学習コンテストの入門的な内容についても、必要最低限の解説にとどめています。 実装に利用するプログラミング言語のPythonやライブラリ、微分・行列演算といった数式などについても、前提知識として説明を省略している部分が存在します。 可能な限り文章で補完し読み進められるよう配慮していますが、1 冊で全てを網羅する書籍ではないという位置づけです。 『Kaggleで勝つデータ分析の技術』(技術評論社)・『PythonではじめるKaggleスタートブック』(講談社)などの参考文献を明示し、必要に応じて関連書籍を参照していただく構成になっています。
おわりに
本書では来年共著で出版する『Kaggleに挑む深層学習プログラミングの極意』(講談社)を紹介しました。 私のデータサイエンティストとしてのキャリアは間違いなく Kaggle と共にあり、幸運に恵まれ書籍の出版に関わり続けています。 お世話になっている Kaggle コミュニティに、少しでも何かが還元できていれば一人の参加者として嬉しい限りです。
- 2020 年:『PythonではじめるKaggleスタートブック』(講談社、共著)
- 2021 年:『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』(マイナビ、翻訳)
- 2022 年:『The Kaggle Book: Data analysis and machine learning for competitive data science』(Packt Publishing、インタビュー掲載)
- 2023 年:『Kaggleに挑む深層学習プログラミングの極意』(講談社、共著)