u++の備忘録

Pythonを用いたKaggle入門書を2020年3月に講談社から出版します

このたびご縁があり、Pythonを用いたKaggle入門書を講談社から出版する運びとなりました*1。現在デザインや校正などを進めている段階で、発売開始は2020年3月17日を予定しています。

https://www.amazon.co.jp/dp/4065190061

同人誌ながら累計2500部以上を売り上げている『Kaggleのチュートリアル*2を執筆したカレーさんとの共著です。

私がQiitaに投稿した「Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~」*3と、カレーさんの『Kaggleのチュートリアル』を基にした書籍です。この2つのコンテンツを土台に、さらなる内容も盛り込みながら「初学者向けのKaggle入門書の決定版」を目指して執筆を進めています。

f:id:upura:20191203164651p:plain

本書の前半では、初学者向けチュートリアルの「Titanic : Machine Learning from Disaster」コンペを題材にKaggleの基礎を学びます。本書でも随所で言及していますがTitanicは必ずしも初学者向けではない面があり、単にTitanicの実践方法を知るだけでなく、次なるコンペにご自身の力で取り組むために必要な知見の習得を意識しています。

後半では複数テーブル・画像データ・テキストデータの扱い方も簡単に解説します。本書を読み終えた後に必要となりそうな情報として、参加するコンペの選び方や初学者にお勧めの戦い方も紹介し、分析環境に関する情報などさらなる学びに向けた参考資料なども掲載予定です。

本書の特徴として、特に次の6つが挙げられます。

  1. Kaggle入門に特化した、チュートリアル形式の書籍である
  2. 章や節単位で具体的な話題が設定され、体系的かつ段階的に汎用的な知見を学ぶ構成になっている
  3. 次なるコンペに進むための道標として、複数テーブル・画像データ・テキストデータの扱い方も解説している
  4. 筆者二人ともに「Kaggle Master」の称号を持ち、賞金獲得経験がある
  5. 地の文での解説だけでなく筆者二人の対談も随所に盛り込み、多角的にKaggleの魅力を語っている
  6. プログラミングやPythonの初学者のために、サンプルコードも丁寧に解説している

本書は「実践Data Scienceシリーズ」の2作目の書籍となる予定です。

「基本をより実践的に!」を合言葉に、データサイエンスで用いられる各種手法の基本を、プログラミングの実装とともに解説していきます。 はじめて学ぶ大学生、大学院生、ソフトウェアエンジニアに向けた注目の新シリーズです。

本書では付録として、サンプルコードを詳細に解説しました。Python初学者を想定し、変数・リストなどのプログラミングの基礎的な内容も取り扱っています。「機械学習が分からない」「Pythonが分からない」「Kaggleの仕組みが理解できない」「英語で書かれていて取っつきにくい」など、初学者がKaggleに取り組む上で生じるさまざまな障壁に対応できる書籍を目指しています。『Kaggleで勝つデータ分析の技術』*4で前提とされている部分を補完するような内容になると思います。

本書の更新情報は、本ブログや講談社サイエンティフィクtwitter*5などで告知予定です。これからまだまだ作業は残っていますが、少しでも多くの皆さまの参考になるような書籍になるよう精進していきます。