『先輩データサイエンティストからの指南書 -実務で生き抜くためのエンジニアリングスキル』(技術評論社)を、著者らのご厚意でご恵贈いただきました。実務で求められるコードの品質管理に関する考え方・ツールや、機械学習に特徴的なデータ確認や実験管理などの話題を扱っています。主な想定読者は新人データサイエンティストやこれからチームでのデータ分析業務に臨む方です。
「大学での研究や Kaggle などでデータ分析技術には一定の自信があるが、会社に入ってチームで開発するのは未経験で不安」という方の最初の一冊としてお勧めしやすい書籍だと思います。2017 年にデータサイエンティストとして現職に入社した私はまさに想定読者で、当時にこのような書籍があれば、より円滑に業務に入り込めたようにも感じました。コード品質向上のための考え方に加え、Git によるバージョン管理、Docker や uv による環境構築やパッケージ管理、mypy による型ヒントといったツールの使い方などの話題がまとまっており、2025年のデータサイエンティストとして押さえておきたいソフトウェアエンジニアリングの要素が広く解説されている印象です。
これらの話題は、既にインターネット上の記事や(データサイエンティストを主たる対象としていない)既存書籍で十分に情報が公開されている認識です。ただし本書の想定読者のような方にとっては、そもそもチームでの開発に向けて何を学べば良いかが分からないという困り事があると思います。そのような方が本書を読むことで、今後学んでいくべきことや頭の片隅に留めて意識しておくべきことなどを把握するのに役立つことでしょう。特に1章は、一般的なデータサイエンス案件の全体像と、本書で解説する内容の対応が端的に整理されており、非常に見通しがよくなると思います。A5 版で 240 ページで、スクリーンショットなどの図やコードの掲載も多いため、比較的読み通しやすい分量になっています。
敢えて要望を述べると、本書の次に読むべき情報への道標があると嬉しいなと感じました。本書の記載内容は、大きく分けて各話題に関する一般的な心構えと、それを実現する現状の選択肢となるツールの解説で構成されています。たとえば「6.1 プロトタイプ開発の意義」「6.2 Streamlitによるプロトタイプ開発」といった具合です。前者はすぐには陳腐化しない内容が説明されている印象ですが、残念ながら後者は歴史的な流行り廃りやインターフェースの変化が存在します。各話題に関心を持った読者が理解をさらに深めるための案内など、より前者が充実していると、後者の内容が多少古くなっても末長く参照される、独学の読者にとってより心強い書籍となるかもしれません。
私自身がパッと思いついたところだと、次のような情報が挙げられます。この辺りは各自のお勧めがありそうなので、身近にデータサイエンティストの先輩がいる場合は雑談の話題としてみるのも良いかもしれません。
- リーダブルコード - O'Reilly Japan
- コード品質を保つための心構えがまとめられた書籍です。
- Pythonで学ぶ画像生成 機械学習実践シリーズ - インプレスブックス
- テスト駆動Python 第2版(Brian Okken 株式会社クイープ 株式会社クイープ 安井 力)|翔泳社の本
- Python でのテストコードの書き方について、pytest を題材に解説している書籍です。
- 改訂新版 Google Cloudではじめる実践データエンジニアリング入門 | 技術評論社
- 本書の一般的なデータサイエンス案件の全体像で触れられつつ、対象外となっているデータ基盤や運用に関する書籍です。
(2025 年 9 月 1 日追記) サポートページが公開され、本書の参考文献・関連書籍リストなどが掲載されています。