u++の備忘録

SemEval-2022 Task 8 参加録:多言語ニュースの話題一致判定

「Kaggle Advent Calendar 2022」の 7 日目の記事を担当します。 本記事では、今年参加した国際ワークショップでの機械学習コンペ「SemEval 2022 Task 8: Multilingual News Article Similarity」の概要とチームでの取り組みを紹介します。 SemEval とは 「S…

「第24回音声言語シンポジウム・第9回自然言語処理シンポジウム」で発表しました

「第24回音声言語シンポジウム・第9回自然言語処理シンポジウム」にて「国際会議参加報告 AACL-IJCNLP 2022」の題目で発表しました。 採択数などの統計情報や開催形式の報告をした後、個人的な興味関心をもとに気になった論文を紹介しました。 この国際会議…

「Sports Analyst Meetup #13」を初のハイブリッドで開催しました

「Sports Analyst Meetup #13」を 2022 年 11 月 26 日、初のハイブリッドで開催しました。 「#12」の開催から 1 年弱たってしまい、告知も 11 月 11 日と直前になったにも関わらず、多くの方にご参加いただき、ご発表をご準備いただきました。 connpass.com…

自然言語処理の国際会議「AACL-IJCNLP 2022」に論文採択・参加報告

11 月 20〜23 日開催の自然言語処理の主要な国際会議「AACL-IJCNLP 2022」に参加しました。投稿した論文が本会議にロングペーパーとして採択され、22 日にポスター発表を実施しました。本記事の最後に、論文・コード・発表資料のリンクを掲載しています。 本…

【書籍メモ】『新 企業の研究者をめざす皆さんへ』(近代科学社)

「Kaggle Days Championship Final」でスペイン・バルセロナに来ています(参照)。航空機含めてインターネットに接続できない期間も多かったので『新 企業の研究者をめざす皆さんへ』(近代科学社)を読んでいました。含蓄に富む書籍で、また日をあけて改め…

【PyCon JP 2022】「実践:日本語文章生成 Transformersライブラリで学ぶ実装の守破離」で登壇

10 月 14、15 日開催の「PyCon JP 2022」に登壇します。昨年に続いて、2 度目の登壇です。今年は「実践:日本語文章生成 Transformersライブラリで学ぶ実装の守破離」の題目で採択されました。発表は TOC 有明コンベンションホールで実施し、YouTube Live で…

【書籍メモ】『社会科学のための統計学入門』(講談社)

講談社からご恵贈いただいた『社会科学のための統計学入門』を読みました。身近な事例を題材に統計学の基礎を解説しています。個人的には著者の統計学に対する姿勢に同意する部分が大きかったです。 www.kspub.co.jp 技術書を読む際、特に重視しているのが最…

「一発ジャンケン」の確率シミュレーション

Yahoo!ニュースを眺めていて見かけた「一発ジャンケン」が、プログラミングの教材として良さげだったので、実際に簡単なプログラムを組んでみました。ルールは以下の通りです(記事からの抜粋)。 まず、1~5を指で出す。数字が大きい人が勝ちなので5が一…

機械学習を用いたサービス開発者として最近読んだ3冊

機械学習を用いたサービス開発者として、最近読んだ3冊の簡単な紹介です。 ここ2年ほどは、自らプロジェクトを設計して推進する立場も多くなってきました。 いずれも手元に置いておいて、しばらくして読み返すとまた違った気づきがあるような書籍だと思いま…

【書籍メモ】『Pythonによる金融テキストマイニング』(朝倉書店)

『Pythonによる金融テキストマイニング』(朝倉書店)を読みました。180 ページ弱で金融関連文書を題材にした話題がまとまっていて、この領域に飛び込む初学者向けに紹介しやすい書籍だと感じました。 www.asakura.co.jp 章立てを以下に示します。第 1 章で…

国際会議「ACL2022」の "News" を含む論文の一言メモ

自然言語処理の最重要国際会議の一つ「ACL2022」の Proceedings にて "News" をタイトルに含む論文の一言メモです。要約・フェイクニュース検出・推薦の話題が多かった印象です。 Long Papers https://aclanthology.org/2022.acl-long.97/ 情報源・情報源が…

【書籍メモ】『推薦システム実践入門――仕事で使える導入ガイド』(オライリー・ジャパン)

著者の松村優也さんのご厚意でお送りいただいた『推薦システム実践入門――仕事で使える導入ガイド』(オライリー・ジャパン)を読みました。帯にある「推薦システムを導入するときにまず手に取ってほしい」という謳い文句が言い得ている書籍だと感じました。 …

直近の3イベントの登壇情報(3月26日〜4月4日)

3月26日〜4月4日に、3つのイベントに登壇します。スポーツ分析、業務、Kaggleとそれぞれ異なる話題について話します。ご関心あれば、ぜひご参加ください。 スポーツアナリティクスジャパン2022 3月26日の「スポーツアナリティクスジャパン2022」に登壇します…

2021年をザッと振り返る

年末恒例の振り返り記事です。今年は4月に職場での部署異動があり、役割範囲も大きく変わりました。研究開発部署にて、案件を自分自身で創出・推進していくことに挑戦した一年でした。 論文 主著では査読付きの国際会議ワークショップ3報(WSDM 2021、SIGIR …

【Weekly Kaggle News 2周年】クリック記事ランキング2021

「Kaggle Advent Calendar」 の20日目の記事です。 ニューズレター「Weekly Kaggle News」が本日2周年を迎えました。日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱っています。週次で毎週金曜日に更新しており、今年11月12…

「Sports Analyst Meetup #12」をオンラインで開催しました #spoana

「Sports Analyst Meetup #12」*1を、12月19日に開催しました。通常回としては6月の「Sports Analyst Meetup #10」*2以来です。なお第11回としては「ARCS IDEATHON (Sports Analyst Meetup #11)」*3と題したアイディアソンを8月に開催しました。 togetter to…

「Kaggle Days Championship」の紹介

「Kaggle Advent Calendar 2021」の2枚目の16日目の記事です。 機械学習コンテストのプラットフォーム「Kaggle」は、今年11月〜来年10月にかけて「Kaggle Days Championship」と題した一連のイベントを開催しています。本記事ではこのイベントについて、概要…

TF-IDFを用いた「Kaggle流行語大賞2021」

Kaggle Advent Calendar 2021 の2枚目の5日目の記事です。 2018〜2020年に引き続き、今年もTF-IDFを用いた「Kaggle流行語大賞」を算出します。具体的には、2021年に公開されたNotebookのタイトル情報から、今年特に際立って登場した単語は何かをランキング形…

「NHKハッカソン- 教育×シビックテック×ニュース」参加録

運営に関わる知人に誘われ、この週末に開催された「NHKハッカソン- 教育×シビックテック×ニュース」に参加してきました。以下がイベントページから抜粋した本イベントの概要です。NHKのニュース関連のAPIを用いて開発できる貴重な機会でした。 今回は「NHK f…

【書籍メモ】『Software Design 2021年11月号』Kaggleで知る機械学習(技術評論社)

Kaggle特集に惹かれ、今月の『Software Design』を購入しました。 gihyo.jp 特集の目次は、以下のとおりです。 第1特集 Kaggleで知る機械学習 前処理から学習モデルの構築,スコアの上げ方までわかる 第1章:Kaggleにエントリーしよう 登録からSubmitまでブ…

「Pythonによるアクセスログ解析入門」の題目で「PyCon JP 2021」で発表しました

10月16日に「PyCon JP 2021」で発表しました。PyCon JP は日本最大級のPythonユーザが集まるイベントです。私はイベント自体が初参加で「Pythonによるアクセスログ解析入門」の題目で提出したプロポーザルが採択されました。 発表では、普段業務で扱っている…

令和大相撲の暫定王者は白鵬(2020年4月時点)から誰かの手に渡ったのか?

大相撲で史上最多の45回の優勝を果たした横綱白鵬が29日、現役引退の日本相撲協会に届け出ました。30日の理事会で承認される見通しとのことです。 www3.nhk.or.jp 白鵬は2020年7月の名古屋場所で右膝の古傷が悪化して以降は休場続きで、2021年名古屋場所で復…

技術書の翻訳体験記2021(『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』)

翻訳を担当した書籍『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』(マイナビ出版)*1が、明日8月24日に発売されます*2。 本書は世界各国で出版・公開された書籍 "Approaching (Almost) Any Machine Learning Problem" *3の翻訳書です。 私自身、翻…

Google Colab Pro+ 契約してみた

Google Colab の最上位プランとして「Pro+」が登場しました。Twitterの検索結果を見ると、日本時間の2021年8月12日午後辺りが初出のようです。 t.co 上記サイトの説明によると、既存の「Pro」プランに比べて、以下の利点があるそうです。 Background executi…

Kaggle「CommonLit Readability Prize」コンペ25位の振り返りと上位解法まとめ

8月2日に終了したKaggle「CommonLit Readability Prize」コンペにチームで参加し、25位でした。 3682チーム参加で、17位までが金メダル圏内で、もう一歩という結果でした。 コンペ概要 チームでの取り組み 上位解法 全体共通の傾向 1位 2位 3位 4位 5位 6位 …

中高生向けに喋った×2

先日、中高生向けに喋る機会が2度ありました。共に光栄なことに母校で話す機会でした。平易な内容で自分語りを極力減らし、できる限り学生にとって「汎化性能」のある有意義な内容にするのに苦心しました。幸い、質疑応答の時間が設けられた前者では10個以上…

「4GM本」の翻訳書『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』が出版されます

マイナビ出版より8月に『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』と題した書籍が出版されることになりました。 世界各国で出版・公開された書籍 "Approaching (Almost) Any Machine Learning Problem" の翻訳書です。 豊富なコード例と機械学習…

「Sports Analyst Meetup #10」をオンラインで開催しました #spoana

「Sports Analyst Meetup #10」*1を、6月26日に開催しました。第7回以降はオンライン開催に切り替えて、今回で記念すべき第10回を迎えました。 togetter togetter.com 発表内容 今回はロングトーク1本、LT4本という構成でした。イベント後には、オンライン以…

【書籍メモ】『教養としてのデータサイエンス』(講談社)

出版社のご厚意でお送りいただいた『教養としてのデータサイエンス』(講談社)を読みました。豪華な著者陣による「文理を問わず、すべての大学生に、数理・データサイエンス・AIを習得させることを目的として編纂された」書籍です*1。 豪華な執筆陣による…

【書籍メモ】『BERTによる自然言語処理入門 Transformersを使った実践プログラミング』(オーム社)

『BERTによる自然言語処理入門 Transformersを使った実践プログラミング』(オーム社)をサラッと読みました。近年の自然言語処理領域の飛躍的発展のきっかけとなった BERT について、理論と実践をバランス良く取り上げた良書だと感じました。 『BERTによる…