u++の備忘録

【書籍メモ】『BERTによる自然言語処理入門 Transformersを使った実践プログラミング』(オーム社)

『BERTによる自然言語処理入門 Transformersを使った実践プログラミング』(オーム社)をサラッと読みました。近年の自然言語処理領域の飛躍的発展のきっかけとなった BERT について、理論と実践をバランス良く取り上げた良書だと感じました。

書籍情報

内容の概要や目次、サンプルのPDFは以下で確認できます。

www.ohmsha.co.jp

所感

書名に「実践プログラミング」とある通り、Google Colaboratory 上に用意されているソースコードで BERT を実践していく部分が肝になっている書籍ではありますが、理論的な面も図を駆使してある程度詳細に触れているのが好印象でした。第3章まで機械学習自然言語処理・BERTの一般的な説明をした後、第4章以降から具体的にライブラリを使っていく構成になっており、理論と実践を明瞭に切り分けている部分も親切だと感じます。実践の章でも、適宜 print で途中経過を表示しており、個別の処理の内容を丁寧に説明している印象を受けました。本書で利用している「Huggingface Transformers」は自然言語処理のさまざまな処理に対応するインターフェイスが豊富に用意されている故に、個人的には時にあまり頭を使わずサンプルコードをコピペしてしまいがちです。使ったことがある関数についても、改めて理解を深める良い機会となりました。

実践では、自然言語処理の題材としてイメージしやすい分類だけではなく固有表現抽出・校正・類似文検索の話題も扱っています。初学者の方にとっては、自然言語処理の応用例の幅広さを知るきっかけになりそうです。日本語のデータセットが使われているのも相まって、身近な事例への適用を考えやすくなると思います。サンプルコードも Google Colaboratory 上に用意されており、特別な環境構築も不要で流用しやすくなっています。文書分類などの章では「PyTorch Lightning」が使われています。個人的には最近使っているライブラリなので特に問題なくむしろ望ましいことでしたが、あまり PyTorch 自体や PyTorch Lightning に慣れていない方にとっては、自然言語処理に直接は関係ない部分で理解のための時間を費やしてしまうかもしれません。

自然言語処理の領域は、2018年末の BERT の登場以来、飛躍的な進歩を生み出しています。一方で発展の速さの影響があり、BERT やライブラリの使い方について体系的にまとまった日本語の書籍はあまりありませんでした。本記事の最後に、今回出版までこぎつけた筆者や出版社の方々のご尽力に、お礼申し上げます。