u++の備忘録

国際会議「ACL2022」の "News" を含む論文の一言メモ

自然言語処理の最重要国際会議の一つ「ACL2022」の Proceedings にて "News" をタイトルに含む論文の一言メモです。要約・フェイクニュース検出・推薦の話題が多かった印象です。

Long Papers

Findings

Workshops

【書籍メモ】『推薦システム実践入門――仕事で使える導入ガイド』(オライリー・ジャパン)

著者の松村優也さんのご厚意でお送りいただいた『推薦システム実践入門――仕事で使える導入ガイド』(オライリー・ジャパン)を読みました。帯にある「推薦システムを導入するときにまず手に取ってほしい」という謳い文句が言い得ている書籍だと感じました。

www.oreilly.co.jp

書籍の概要と所感

企業で推薦システムの構築に携わった経験がある著者らによる、推薦システム導入の手引きとなる一冊です。推薦システムの全体像を「インプット(データの入力)」「プロセス(推薦の計算)」「アウトプット(推薦の提示)」の3要素に分けて定義し、個別の章でUI/UX・アルゴリズム・評価などの観点を紐解いていきます。

推薦システムを考える際、どうしても注目を集めがちなのがプロセスの部分です。本書では第4・5章でこのプロセスの部分を具体的な実装と共に丁寧に解説しつつ、前段としてプロジェクト設計やUI/UXなど、企業で推薦システムを構築する上で必要不可欠な知識を言語化して整理している点が良い書籍だと感じました。第6章では推薦システムのデザインパターン、第7章では評価、第8章ではバイアスなどの発展的な話題も扱っています。書籍全体を通じて、推薦システムを取り巻く話題を広く押さえている印象です。

私自身の考えとして、企業の中で推薦システムを構築・運用していく上で大事なのは、実現可能な選択肢の全体像を把握しながら個別のビジネス要件に応じた在り方を議論していくことだと思っています。たとえば本書の分類に倣って例示すると、以下のような議題があります。

  • インプット:どのようなユーザの属性情報や行動履歴の情報を利用できるのか、利用して良いのか。行動履歴の情報は明示的か暗黙的か。そこに偏りはないのか。
  • プロセス:どの程度高度なアルゴリズムが必要なのか。開発や運用のコストは成果に見合うのか。何を基準に性能を評価するのか。
  • アウトプット:ユーザにいつ、どのように推薦結果を示すのか。目的はどこにあるのか。

推薦システムに明確な「正解」はなく、個別のビジネス要件に応じた設計が必要になるはずです。本書で扱っているような内容を前提として押さえていると、要件に応じた在り方を企業の関係者らで広く議論していく上で、物事が円滑に進みやすくなると思います。内容は私自身ある程度理解している部分も多かったですが、あとがきにある通り「新入社員だった頃に知りたかった内容」が詰め込まれている書籍だと感じました。

おわりに

本記事では『推薦システム実践入門――仕事で使える導入ガイド』(オライリー・ジャパン)の概要と所感を紹介しました。 改めまして、実務で培った推薦システムに関する知見を日本語の書籍という形で丁寧にまとめてくださった著者のお三方にお礼申し上げます。

補足:推薦に関する機械学習コンテスト

本書の主題とは外れますが、映画推薦を題材とした「Netflix Prize」などの機械学習コンテストの話題も登場します。12ページにわたる付録でも言及されている通り、機械学習コンテストでのデータセット公開を通じて、推薦技術に関する研究・開発が大きく促進されました。データセットの匿名性や過度のアンサンブルなどの懸念点も当然ありますが、機械学習コンテストの貢献が窺い知れる内容となっています。

ちなみに、書籍をお送りいただいた松村さんとは、一緒に推薦を題材とした機械学習コンテストに参加したご縁がありました。

Shotaro Ishihara, Shuhei Goda, Yuya Matsumura (2021). Weighted Averaging of Various LSTM Models for Next Destination Recommendation, In Proceedings of the Workshop on Web Tourism co-located with the 14th ACM International WSDM Conference (WSDM 2021), March 12, 2021, Jerusalem, Israel, pp. 46-49.

upura.hatenablog.com

直近の3イベントの登壇情報(3月26日〜4月4日)

3月26日〜4月4日に、3つのイベントに登壇します。スポーツ分析、業務、Kaggleとそれぞれ異なる話題について話します。ご関心あれば、ぜひご参加ください。

スポーツアナリティクスジャパン2022

3月26日の「スポーツアナリティクスジャパン2022」に登壇します。スポーツとデータ分析を題材にしたイベント「Sports Analyst Meetup」の運営メンバーとして、理念やこれまでの取り組みを紹介します。その他の登壇者も豪華で楽しみです。

jsaa.org

Machine Learning Casual Talks #13 (Online)

3月30日の「Machine Learning Casual Talks #13 (Online)」に登壇します。機械学習プロジェクトに関する「Human In The Loop」を題材にしたイベントです。「The 5th IEEE Workshop on Human-in-the-Loop Methods and Future of Work in BigData」に採択された論文について解説します。

mlct.connpass.com

ML Study #3「機械学習コンペ」

4月4日の「ML Study #3 機械学習コンペ」に登壇します。ニュースレター「Weekly Kaggle News」の発行など、さまざまな形でコンペ関連の取り組みをした経験から感じた近年の潮流についてお話する予定です。広く機械学習に関わっている方に向けて、機械学習コンペおよびKaggleの2022年4月時点での実情が垣間見える発表になればと考えています。

forkwell.connpass.com

2021年をザッと振り返る

年末恒例の振り返り記事です。今年は4月に職場での部署異動があり、役割範囲も大きく変わりました。研究開発部署にて、案件を自分自身で創出・推進していくことに挑戦した一年でした。

論文

主著では査読付きの国際会議ワークショップ3報(WSDM 2021、SIGIR 2021、IEEE BigData 2021)、受賞1(人工知能学会全国大会優秀賞)でした。 Computation + Journalism Symposium 2021言語処理学会第27回年次大会ワークショップでも発表したほか、共著でも人工知能学会全国大会にも投稿しました。

コミュニティ活動

世界各国で出版・公開された書籍 "Approaching (Almost) Any Machine Learning Problem" の翻訳書として、マイナビ出版から8月に『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』と題した書籍を出版しました。 2020年の『Kaggleスタートブック』(講談社)に引き続き、今年も商用出版を経験できました。 現在も共著で1冊を執筆中で、来年中の刊行を目指しています。

2019年末に始めた週次のニュースレターは、今年も休刊なく継続できました。 YouTubeチャンネルにも15の動画を投稿しました。

はてなブログは本記事を含めて30記事を公開しました。 論文や書籍の執筆に重きを置いた影響で、100記事以上を達成していた例年に比べると少ない数字になっています。 会社での技術ブログは7記事書きました。

運営に関わっているイベント「Sports Analyst Meetup」を、3回(第10〜12回)開催できました。 特に第11回では「ARCS IDEATHON」と題して、ラグビートップリーグ所属ラグビーチーム「NTTコミュニケーションズシャイニングアークス」と共同でアイディアソンも開催しました。

その他、以下のイベントに登壇する機会を頂きました。 PyCon JPに採択されたこと、母校の高校・大学で卒業生として登壇できたことが印象に残っています。 関係者の皆様に、改めてお礼申し上げます。

コンペ

Kaggleでは、チーム参加した自然言語処理コンペ「CommonLit Readability Prize」で25位の銀メダルでした。 Notebooksカテゴリでは、Masterの称号を獲得しました。 「Kaggle Days Championship」のニューデリー予選ではチームで3位に入り、来年秋にスペイン・バルセロナで開催予定の本戦進出が決まりました。

その他のプラットフォームでは、以下のような成績でした。

  • Nishika 判例の個人情報の自動マスキング 7th (Solo), 2021.
  • NLP若手の会 (YANS) 第16回シンポジウム ハッカソン, 2nd (Team), 2021.
  • SIGIR eCom'21 Data Challenge Purchase Intent Prediction, 3nd (Team), 2021.
  • Solafune: 夜間光データから土地価格を予測 6th (Solo), 2021.
  • 言語処理学会第27回年次大会(NLP2021)ワークショップ2 AI王 〜クイズAI日本一決定戦〜 ライブコンペティション 5th (Team), 2021.
  • ACM WSDM Workshop on Web Tourism (WSDM Webtour'21), 6th (Team), 2021.

おわりに

今年は試行錯誤を重ねながら、自分の幅を広げる活動に取り組んだ一年だったと感じます。 年末にかけて原稿・研究などさまざま仕込んでいる段階なので、来年以降にお披露目できるのが楽しみです。

【Weekly Kaggle News 2周年】クリック記事ランキング2021

Kaggle Advent Calendar」 の20日目の記事です。

ニューズレター「Weekly Kaggle News」が本日2周年を迎えました。日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱っています。週次で毎週金曜日に更新しており、今年11月12日の号で第100回を迎え、最新号は第105回になっています。

購読者数は、ありがたいことに着実に増加しています。下図の赤は購読者数、青はユニークな開封数です。

f:id:upura:20211205002116p:plain

それでは、今年発行のWeekly Kaggle News経由でクリックされたURLのランキング結果を紹介します。単純なクリック回数なので、購読者数が増えている直近の回が有利な条件になっています。なお昨年もランキングを公開しています。

第1位に輝いたのは、ダントツでKaggle公式の機械学習入門講座「30 Days of ML」でした。多くの読者の琴線に触れたようです。第2位には、12月10日に配信したばかりの号から『ゼロから作るDeep Learning ❹』の公開レビューが登場しました。強化学習を題材にした書籍で、Kaggleでも近年コンペが開催されています。第3、4位は、近年飛躍的な成果が報告されているニューラルネットワークの「Transformer」機構についての記事でした。第5、7位には深層学習ライブラリ「PyTorch」に関する話題が入ったのも近年の流行を感じさせます。第6位は、今年Kaggle Competitions Masterになった方による入門者向けの記事でした。

見落としていた記事があれば、ぜひご覧ください。「Weekly Kaggle News」は、来年も発行を続けていく予定です。引き続き、どうぞよろしくお願いいたします。

1位: 第84回、202クリック

www.kaggle.com

2位: 第104回、142クリック

tree-radius-a8e.notion.site

3位: 第72回、140クリック

4位: 第56回、109クリック

blog.brainpad.co.jp

5位: 第58回、108クリック

www.amazon.co.jp

6位: 第76回、102クリック

note.com

7位: 第74回、90クリック

www.ohmsha.co.jp

7位: 第97回、90クリック

qiita.com

「Sports Analyst Meetup #12」をオンラインで開催しました #spoana

「Sports Analyst Meetup #12」*1を、12月19日に開催しました。通常回としては6月の「Sports Analyst Meetup #10」*2以来です。なお第11回としては「ARCS IDEATHON (Sports Analyst Meetup #11)」*3と題したアイディアソンを8月に開催しました。

togetter

togetter.com

発表内容

今回は「年末のライトニングトーク(LT)祭り」ということで、LTが7本という構成でした。イベント後には、懇親会も実施しました。

f:id:upura:20211219184402p:plain

アーカイブ

オンライン開催の利点を活かして、発表者の許諾が得られた内容については、YouTubeアーカイブを掲載していく予定です。

www.youtube.com

おわりに

今回も多くの方にご参加・ご発表いただき、誠にありがとうございました。 今回が2021年の最終回となります。 今年はプロスポーツチームと共同でアイディアソンを開催するなど、新たな展開にも挑みました。 来年以降も、可能な範囲で「spoana」の取り組みを継続していきたいと考えております。

「Kaggle Days Championship」の紹介

Kaggle Advent Calendar 2021」の2枚目の16日目の記事です。

機械学習コンテストのプラットフォーム「Kaggle」は、今年11月〜来年10月にかけて「Kaggle Days Championship」と題した一連のイベントを開催しています。本記事ではこのイベントについて、概要を紹介します。

Kaggle Days

Kaggle Days」は、普段はオンライン上で腕を競い合っているKaggle参加者(Kaggler)が、物理的に一堂に会するイベントです。2018年にワルシャワ開催を皮切りに、2019年12月には東京でも開催されました。当時の運営発表によると、240の参加枠に対し12カ国以上から、8人のGrandmaster、37人のMasters、65人のexpertsを含む465もの応募があったそうです。Kaggle Days では、有名なKagglerによる発表に加えて、数時間でのコンテスト開催が一般的でした。

Kaggle Days Championship

2020年以降の新型コロナウイルス感染症の流行に伴ってしばらくは物理イベントが開催されず、オンラインでのイベントが開催されていました。「Kaggle Days Championship」が予告されたのは2021年10月です。東京を含む12の地域でオンラインイベントを開催し、各イベントで開催されるコンテストの上位3チームが来年10月にスペイン・バルセロナに集結し対決するという旨が発表されました*1

オンラインイベントは11月の上海から始まり、約3週間に一度のペースで各地を転々とします。東京では4月21日に開催予定です。「オンラインイベントなのに開催地?」という疑問は至極妥当で、実質的には発表者選びやタイムゾーンのみに影響しています。各イベントのタイムテーブルは「AGENDA」として公開されており、それぞれの現地時刻で開催されています。

f:id:upura:20211214090830p:plain
図は https://kaggledays.com/championship/meetups/ から引用

各イベントの受け付けは、上記のページで開催日の3週間前ごろ始まります。参加者は12のオンラインイベントのうち何度でも申し込み可能です*2

コンテストの詳細

Kaggle Days Championshipのオンラインイベントでは、わずか4時間の制限時間でコンテストが開催されます。課題は毎回コンテスト開始と同時に発表され、全12回でそれぞれ異なるタスクが出題されるそうです。チーム人数は最大4人で、当日のコンテスト進行の流れで検討することも可能ですが、短期間のため事前にチームを組んでいる方々も多いように感じます。

11月18日に上海の枠で開催されたイベントでは、日本からはKaggle GrandmasterのlyakaapさんKFさんらを擁するDeNAチームが3位に入りました。

そして12月9日のニューデリーの枠では、私が知人と「re:wodori」という名で参加したチームが3位に入りました。 先日、チームメイトもKaggle Days Championshipの紹介記事を公開したので、ご関心あればぜひご覧ください。

おわりに

本記事では、Kaggle Days Championshipの概要を紹介しました。 来年無事にスペイン・バルセロナに参戦できるのを楽しみにしています。

*1:現時点では来年9月もしくは10月と記載されています

*2:厳密には「とある時点より後に開催される一つのイベントのみに申し込みが可能」ですが、イベントは3週間ごと開催のため実質すべてに参加可能だと考えられます