u++の備忘録

中国語繁体字版『PythonではじめるKaggleスタートブック』

昨年4月に出版した書籍『PythonではじめるKaggleスタートブック』(講談社)*1の中国語繁体字版が、今月出版されました。原著も第3刷&電子版好調らしく、時間をかけた執筆作業が報われている気分です。 books.gotop.com.tw 他言語版ということで、サポート…

Google Code Jam 2021 Qualification Round 参加録

「Google Code Jam 2021」の Qualification Round に参加しました。「Code Jam」は、Googleが主催する世界的なコーディングコンテストで、Qualification Round は最初の予選です。今年は日本時間の3月26日22時〜28日午前4時にわたり開催され、出題5問から合…

【YouTube更新】大学入学共通テスト「情報」(プログラミング)のサンプル問題を解いてみた

大学入試センターは24日、2025年1月に実施する大学入学共通テストの教科・科目の再編案を公表しました。プログラミング関連の知識を試す「情報」が導入されるそうです*1。 今回は、公開されたサンプル問題*2をすべて解いてみました。サラッと流し見で問題の…

言語処理学会第27回年次大会ワークショップ「AI王 〜クイズAI日本一決定戦〜」参加録

言語処理学会第 27 回年次大会のワークショップとして開催されていた「AI王 〜クイズAI日本一決定戦〜」*1に参加しました。Kaggle などで親交のある atfujita さんとのチームで、最終結果は 5 位でした。 コンペ概要 日本語の 20 択のクイズ問題に回答する課…

国際会議「ACM WSDM」のワークショップ「Booking.com Data Challenge」で6位に

国際会議「ACM WSDM」のワークショップとして開催されていた「Booking.com Data Challenge」*1で6位に入りました*2。Wantedly の hakubishin3 さんと Yuya Matsumura さん とのチームで、解法をまとめた論文は同ワークショップに採択・公開されました*3。同…

「GPT-3」周辺で調べたことをまとめる(2021年2月)

コンピュータサイエンス技術の一つに、自然言語処理(NLP)と呼ばれている領域があります。NLPは、コンピュータに人間の用いる言語(自然言語)を処理させる取り組み全般を指します。 ここ数年のNLPの傾向として、大規模テキストでの事前学習済みモデルの活…

東海高等学校・中学校「38thサタデープログラム」での発表資料

2月27日(土)開催の東海高等学校・中学校「38thサタデープログラム」で発表予定でしたが、残念ながら中止となりました。せっかくなので、発表予定だった資料を一部編集の上で公開します。ご興味ある方は、ぜひご覧ください。 www.satprogram.net 2月に母校…

「Weekly Kaggle News」を横断検索できる仕組みを作った

概要 毎週金曜日に更新しているニューズレター「Weekly Kaggle News」を横断検索できる仕組みを作りました GitHubのレポジトリに全データを蓄積し、左上の検索ボックスからレポジトリ内を検索できます 最新号のデータをAPIで取得し、GitHub Actionsで自動更…

2020年をザッと振り返る

年末恒例の振り返り記事です。あっという間に時間が経ちました。 コミュニティ活動 コンペ 英語 イベント 勉強会 Podcast 学会 表彰 おわりに コミュニティ活動 はてなブログは今年も100記事を達成できました。今年初めには、株式会社はてな東京オフィスを訪…

「Weekly Kaggle News」1周年&購読者数1400人達成

「Kaggle Advent Calendar」 の20日目の記事です。 1年前に始めたニューズレター「Weekly Kaggle News」が1周年を迎えました。日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱っています。週次で毎週金曜日に更新しており、1…

「Sports Analyst Meetup #9」をオンラインで開催しました #spoana

「Sports Analyst Meetup #9」*1を、12月13日に開催しました。7、8回目に引き続きのオンライン開催でした。 資料 spoana.connpass.com togetter togetter.com 発表内容 今回はロングトーク1本、LT6本という構成でした。 ロングトークでは、株式会社ユーフォ…

「#7 CA x atmaCup 2nd 振り返り回」でLTしました

「#7 CA x atmaCup 2nd 振り返り回」*1でLTしました。5位解法とともに、チームマージでの取り組みを具体的に紹介しました。 *1:atma.connpass.com

TF-IDFを用いた「Kaggle流行語大賞2020」

Kaggle Advent Calendar の8日目の記事です。 2018年、2019年に引き続き、今年もTF-IDFを用いた「Kaggle流行語大賞」を算出します。具体的には、2020年に公開されたNotebookのタイトル情報から、頻繁に登場した単語をランキング形式でまとめました。 2018年*…

ニュースメディアでの機械学習活用事例について「Google Developers ML Summit」で登壇(12月3日)

12月3日に「Google Developers ML Summit」に登壇します。もう1年近く経ってしまった「Kaggle Days Tokyo」の話も含めて、会社での機械学習の活用事例を紹介する予定です。17:10-18:00の枠で、質問も受け付ける予定です。ご興味ある方はぜひご覧ください。 …

Basketball Behavior Challenge 1st Place Solution

本記事について 「スポーツアナリティクス Advent Calendar 2020」*1の1日目の記事です。 12月13日開催の「Sports Analyst Meetup #9」*2で発表予定の内容をまとめました。 概要 2019年12月〜2020年9月に開催されていた「Basketball Behavior Challenge: BBC…

M-1グランプリ2020の2回戦動画を観た

M-1グランプリ2020の2回戦動画がGyaoとYouTubeで全公開されていたので、合格者を中心にザッと目を通しました。 gyao.yahoo.co.jp 昨年の準決勝を観に行くくらいには以前からお笑い好きでしたが、今年は在宅の時間が増えたことも相まって、その傾向が加速しま…

データサイエンティスト協会シンポジウムのKaggleセッションに登壇(11月10日)

11月10日にデータサイエンティスト協会シンポジウムで、毎年恒例のKaggleセッションを実施します。 11月10日にデータサイエンティスト協会シンポジウムで、毎年恒例のKaggleセッションを実施します。今年のテーマは「Kaggler枠」で、企業によるKaggler支援を…

日本語BERTを用いた会社名の埋め込み

以前に参加したNishika「財務・非財務情報を活用した株主価値予測」コンペ*1で検討していたタイトルの技術について、別コンペで使う可能性があったので改めてコードを整理していました。結局使わなかったですが、せっかくまとめたのでブログ記事として供養し…

「SciPy Japan 2020」で Kaggle チュートリアルを担当(10月30日)

10月30日からオンライン開催される「SciPy Japan 2020」にて、初日朝9:00〜12:30のチュートリアル講座を担当します。本記事では「SciPy Japan」の紹介と、参加される方向けのご案内を掲載します。 Tutorial: Pythonで機械学習コンペティション「Kaggle」をは…

「AWS DEV DAY ONLINE JAPAN」のKaggleセッションに登壇(10月21日)

「AWS DEV DAY ONLINE JAPAN」のKaggleセッションに登壇します。10月21日15:50〜16:20のブレイクアウトセッションです。 E-9 : kagglerが語る「コンペとキャリアとビジネスと私」 aws.amazon.com 元「専業Kaggler」の currypurinさん と、AWSの atfujitaさん…

Podcast「白金鉱業FM」に出演しました #白金鉱業fm

BrainPad社のデータサイエンティスト有志によるPodcast「白金鉱業FM」に出演しました。先日公開された「keep-alive.fm」*1と合わせて、お楽しみください。 shirokane-kougyou.fm 話題 以下が今回のお品書きです。興味のある部分だけでも、ぜひ聴いてみてくだ…

生存戦略を語るPodcast「keep-alive.fm」に出演しました #keepalivefm

広義のソフトウェアエンジニアが生存戦略を語るPodcast「keep-alive.fm」に出演しました。 anchor.fm 話題 以下が今回のお品書きです。以前から親交のあった@guiltydammyさんと@crcrparさんと一緒に、楽しくお喋りしました。 興味のある部分だけでも、ぜひ聴…

Kaggle「OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction」コンペ参加録

Kaggle「OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction」コンペ*1に参加し、銀メダルの77位でした。 解法はdiscussion*2に簡単にまとめましたが、公開Notebookからの派生でモデルを作り、CVの良い8つのモデルの平均を取りました。 1位相当の提…

SIGNATE「ひろしまQuest2020#stayhome【アイデア部門】」提出資料

以前に参加していたSIGNATE「ひろしまQuest2020#stayhome【アイデア部門】」*1について、自分の提出資料を公開しました。残念ながら入賞はできませんでしたが、興味関心のある野球のデータを分析できて非常に楽しいコンペでした。入賞者以外の成果物共有を許…

山手線を徒歩で一周した(3年ぶり2回目)

コロナ禍でしばらく外出自体を控えていましたが、年始以来の久々の徒歩企画です。 upura.hatenablog.com 今回はマスクを装着し、山手線を徒歩で一周しました。3年前の学生時代以来、人生2度目の挑戦です。前回とは逆方向で周ってみました。 upura.hatenablog…

Google Cloud「Ask the Expert」に出演しました

Google Cloudのインタビュー企画「Ask the Expert」に出演しました。会社での取り組みやKaggleの楽しさなどを話しました。 developers-jp.googleblog.com togetter でのまとめはこちら。 togetter.com

非負値行列因子分解を用いたKaggleコンペ推薦

非負値行列因子分解を用いて、Kaggleコンペを推薦する仕組みを考えました。 手法 実験 データセット 実装 デモアプリ 今後の展望 コールドスタート デプロイ おわりに 手法 いくらでも高度なやり方はあり得ますが、手っ取り早い方法として行列分解を試しまし…

「Basketball Behavior Challenge BBC2020」で4チーム中1位に

9月1日まで開催されていた「Basketball Behavior Challenge BBC2020」*1というコンペで1位になりました*2。選手とボールの座標推移からスクリーンプレイの有無を判定するタスクで、分析していて楽しいコンペでした。 解法の概要とスコアの推移は下図の通りで…

自分のTwitter投稿内のURLを分析してみた

これは何? 次の記事に着想を得て、自分のデータでやってみました。具体的には、2015年6月から現在までの自分のTwitter投稿から、全部のURLを抽出し、ドメイン単位で集計しました。 www.buzzfeed.com データの取得 twilog*1に自分の投稿データが保存されてい…

Kaggleの「おすすめコンペは何?」への答えを考えた

「Rist主催 Kaggle Workshop #1」にてLT発表しました。テーマは「おすすめコンペは何?」という質問への答え方です。発表資料やプレゼンテーション動画を掲載したので、ご興味あらばご覧いただければと思います。 最近Kaggle系のイベントに飢えていたので、…