u++の備忘録

2021-01-01から1年間の記事一覧

2021年をザッと振り返る

年末恒例の振り返り記事です。今年は4月に職場での部署異動があり、役割範囲も大きく変わりました。研究開発部署にて、案件を自分自身で創出・推進していくことに挑戦した一年でした。 論文 主著では査読付きの国際会議ワークショップ3報(WSDM 2021、SIGIR …

【Weekly Kaggle News 2周年】クリック記事ランキング2021

「Kaggle Advent Calendar」 の20日目の記事です。 ニューズレター「Weekly Kaggle News」が本日2周年を迎えました。日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱っています。週次で毎週金曜日に更新しており、今年11月12…

「Sports Analyst Meetup #12」をオンラインで開催しました #spoana

「Sports Analyst Meetup #12」*1を、12月19日に開催しました。通常回としては6月の「Sports Analyst Meetup #10」*2以来です。なお第11回としては「ARCS IDEATHON (Sports Analyst Meetup #11)」*3と題したアイディアソンを8月に開催しました。 togetter to…

「Kaggle Days Championship」の紹介

「Kaggle Advent Calendar 2021」の2枚目の16日目の記事です。 機械学習コンテストのプラットフォーム「Kaggle」は、今年11月〜来年10月にかけて「Kaggle Days Championship」と題した一連のイベントを開催しています。本記事ではこのイベントについて、概要…

TF-IDFを用いた「Kaggle流行語大賞2021」

Kaggle Advent Calendar 2021 の2枚目の5日目の記事です。 2018〜2020年に引き続き、今年もTF-IDFを用いた「Kaggle流行語大賞」を算出します。具体的には、2021年に公開されたNotebookのタイトル情報から、今年特に際立って登場した単語は何かをランキング形…

「NHKハッカソン- 教育×シビックテック×ニュース」参加録

運営に関わる知人に誘われ、この週末に開催された「NHKハッカソン- 教育×シビックテック×ニュース」に参加してきました。以下がイベントページから抜粋した本イベントの概要です。NHKのニュース関連のAPIを用いて開発できる貴重な機会でした。 今回は「NHK f…

【書籍メモ】『Software Design 2021年11月号』Kaggleで知る機械学習(技術評論社)

Kaggle特集に惹かれ、今月の『Software Design』を購入しました。 gihyo.jp 特集の目次は、以下のとおりです。 第1特集 Kaggleで知る機械学習 前処理から学習モデルの構築,スコアの上げ方までわかる 第1章:Kaggleにエントリーしよう 登録からSubmitまでブ…

「Pythonによるアクセスログ解析入門」の題目で「PyCon JP 2021」で発表しました

10月16日に「PyCon JP 2021」で発表しました。PyCon JP は日本最大級のPythonユーザが集まるイベントです。私はイベント自体が初参加で「Pythonによるアクセスログ解析入門」の題目で提出したプロポーザルが採択されました。 発表では、普段業務で扱っている…

令和大相撲の暫定王者は白鵬(2020年4月時点)から誰かの手に渡ったのか?

大相撲で史上最多の45回の優勝を果たした横綱白鵬が29日、現役引退の日本相撲協会に届け出ました。30日の理事会で承認される見通しとのことです。 www3.nhk.or.jp 白鵬は2020年7月の名古屋場所で右膝の古傷が悪化して以降は休場続きで、2021年名古屋場所で復…

技術書の翻訳体験記2021(『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』)

翻訳を担当した書籍『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』(マイナビ出版)*1が、明日8月24日に発売されます*2。 本書は世界各国で出版・公開された書籍 "Approaching (Almost) Any Machine Learning Problem" *3の翻訳書です。 私自身、翻…

Google Colab Pro+ 契約してみた

Google Colab の最上位プランとして「Pro+」が登場しました。Twitterの検索結果を見ると、日本時間の2021年8月12日午後辺りが初出のようです。 t.co 上記サイトの説明によると、既存の「Pro」プランに比べて、以下の利点があるそうです。 Background executi…

Kaggle「CommonLit Readability Prize」コンペ25位の振り返りと上位解法まとめ

8月2日に終了したKaggle「CommonLit Readability Prize」コンペにチームで参加し、25位でした。 3682チーム参加で、17位までが金メダル圏内で、もう一歩という結果でした。 コンペ概要 チームでの取り組み 上位解法 全体共通の傾向 1位 2位 3位 4位 5位 6位 …

中高生向けに喋った×2

先日、中高生向けに喋る機会が2度ありました。共に光栄なことに母校で話す機会でした。平易な内容で自分語りを極力減らし、できる限り学生にとって「汎化性能」のある有意義な内容にするのに苦心しました。幸い、質疑応答の時間が設けられた前者では10個以上…

「4GM本」の翻訳書『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』が出版されます

マイナビ出版より8月に『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』と題した書籍が出版されることになりました。 世界各国で出版・公開された書籍 "Approaching (Almost) Any Machine Learning Problem" の翻訳書です。 豊富なコード例と機械学習…

「Sports Analyst Meetup #10」をオンラインで開催しました #spoana

「Sports Analyst Meetup #10」*1を、6月26日に開催しました。第7回以降はオンライン開催に切り替えて、今回で記念すべき第10回を迎えました。 togetter togetter.com 発表内容 今回はロングトーク1本、LT4本という構成でした。イベント後には、オンライン以…

【書籍メモ】『教養としてのデータサイエンス』(講談社)

出版社のご厚意でお送りいただいた『教養としてのデータサイエンス』(講談社)を読みました。豪華な著者陣による「文理を問わず、すべての大学生に、数理・データサイエンス・AIを習得させることを目的として編纂された」書籍です*1。 豪華な執筆陣による…

【書籍メモ】『BERTによる自然言語処理入門 Transformersを使った実践プログラミング』(オーム社)

『BERTによる自然言語処理入門 Transformersを使った実践プログラミング』(オーム社)をサラッと読みました。近年の自然言語処理領域の飛躍的発展のきっかけとなった BERT について、理論と実践をバランス良く取り上げた良書だと感じました。 『BERTによる…

Kaggle「BirdCLEF 2021 - Birdcall Identification」参加録

Kaggle「BirdCLEF 2021 - Birdcall Identification」*1に参加し、102位でした*2。Kaggler の知人が何人か参加していたので興味を持ち、残り9日から参戦しました。 やったことは以下の通りです。音声を題材にしたコンペに初めて取り組みましたが、学習用デー…

LightGBMの特徴量の順序変更が重要度に与える影響

同一の質問を何度か見かけたので、次回はリンクを貼って解決するためのメモです。 Q: 特徴量の順番を変えたら、重要度や精度が変わりましたが、なぜでしょうか? A1: 学習時のハイパーパラメータ feature_fraction の影響かもしれません LightGBMの学習時の…

Kaggle の Code Competitions で処理済ファイルやライブラリを使う

近年の Kaggle では、参加者が Kaggle の Code 環境上でソースコードを実行する「code competitions」形式でのコンペ開催が増えています。実行時間や処理内容など諸条件はコンペごとに異なります*1が、モデルの学習を事前に実施し、評価用データセットに対す…

Solafune「夜間光データから土地価格を予測」コンペ 6 位解法

衛星データに関するコンペティションプラットフォーム「Solafune」で開催されていた「夜間光データから土地価格を予測」コンペ*1で、 6 位になりました。終了直前の参加だったので、優勝した方が公開していた特徴量に少し足して、pseudo labeling で水増しし…

Kaggle Notebooks Master になった

2018 年の GW に Kaggle を本格的に始めて丸 3 年、Notebooks カテゴリで Master の称号を獲得しました。 2019 年 4 月に終了したコンペでチームメイトにも恵まれ金メダルを獲得できた後、入門記事や入門書など、主に日本人参加者の Kaggle に対する障壁を下…

中国語繁体字版『PythonではじめるKaggleスタートブック』

昨年4月に出版した書籍『PythonではじめるKaggleスタートブック』(講談社)*1の中国語繁体字版が、今月出版されました。原著も第3刷&電子版好調らしく、時間をかけた執筆作業が報われている気分です。 books.gotop.com.tw 他言語版ということで、サポート…

Google Code Jam 2021 Qualification Round 参加録

「Google Code Jam 2021」の Qualification Round に参加しました。「Code Jam」は、Googleが主催する世界的なコーディングコンテストで、Qualification Round は最初の予選です。今年は日本時間の3月26日22時〜28日午前4時にわたり開催され、出題5問から合…

【YouTube更新】大学入学共通テスト「情報」(プログラミング)のサンプル問題を解いてみた

大学入試センターは24日、2025年1月に実施する大学入学共通テストの教科・科目の再編案を公表しました。プログラミング関連の知識を試す「情報」が導入されるそうです*1。 今回は、公開されたサンプル問題*2をすべて解いてみました。サラッと流し見で問題の…

言語処理学会第27回年次大会ワークショップ「AI王 〜クイズAI日本一決定戦〜」参加録

言語処理学会第 27 回年次大会のワークショップとして開催されていた「AI王 〜クイズAI日本一決定戦〜」*1に参加しました。Kaggle などで親交のある atfujita さんとのチームで、最終結果は 5 位でした。 コンペ概要 日本語の 20 択のクイズ問題に回答する課…

国際会議「ACM WSDM」のワークショップ「Booking.com Data Challenge」で6位に

国際会議「ACM WSDM」のワークショップとして開催されていた「Booking.com Data Challenge」*1で6位に入りました*2。Wantedly の hakubishin3 さんと Yuya Matsumura さん とのチームで、解法をまとめた論文は同ワークショップに採択・公開されました*3。同…

「GPT-3」周辺で調べたことをまとめる(2021年2月)

コンピュータサイエンス技術の一つに、自然言語処理(NLP)と呼ばれている領域があります。NLPは、コンピュータに人間の用いる言語(自然言語)を処理させる取り組み全般を指します。 ここ数年のNLPの傾向として、大規模テキストでの事前学習済みモデルの活…

東海高等学校・中学校「38thサタデープログラム」での発表資料

2月27日(土)開催の東海高等学校・中学校「38thサタデープログラム」で発表予定でしたが、残念ながら中止となりました。せっかくなので、発表予定だった資料を一部編集の上で公開します。ご興味ある方は、ぜひご覧ください。 www.satprogram.net 2月に母校…

「Weekly Kaggle News」を横断検索できる仕組みを作った

概要 毎週金曜日に更新しているニューズレター「Weekly Kaggle News」を横断検索できる仕組みを作りました GitHubのレポジトリに全データを蓄積し、左上の検索ボックスからレポジトリ内を検索できます 最新号のデータをAPIで取得し、GitHub Actionsで自動更…