u++の備忘録

regonn&curry.fm にゲスト参加しました

少し日は経ってしまいましたが、データサイエンス・機械学習(主にKaggle)について話すPodCast「regonn&curry.fm」にゲスト参加しました。先日発行した拙著*1などについて、共著者のカレーさんも含めてざっくばらんにお話しています。 ご興味あれば、ぜひお聴…

「企業分析における自然言語処理を学ぼう」にオンライン参加した #carenlp

「企業分析における自然言語処理を学ぼう」と題した勉強会*1に参加しました。初めての大規模なオンライン勉強会への参加でしたが、画質も全く問題なくChatやtwitterのハッシュタグでコミュニケーションが取れて「これはこれで良いな」という感想を抱きました…

「AutoGluon-Tabular」を試してみる

AutoML「AutoGluon-Tabular」が、少なくとも私の観測範囲の中で局所的に話題になっています。 構造化データに対するAutoMLとしてAutoGluon-Tabularは基本モデルを積み重ねる多層スタックアンサンブルを利用。各層は前層の予測結果と入力を受け取り、過学習を…

【論文メモ】「第24回 人工知能学会 金融情報学研究会」で気になった発表

「第24回 人工知能学会 金融情報学研究会(SIG-FIN)」*1で気になった発表をいくつか読みました。 昨年10月の第23回が台風接近の影響で中止*2となり、今回も新型コロナウイルスの影響で中止*3となってしまいました。今回は「発表扱い」で原稿も公表されたの…

【書籍メモ】『PythonではじめるKaggleスタートブック』(講談社)

共著で執筆した、3月17日発売の『PythonではじめるKaggleスタートブック』(講談社)が手元に届きました。 本記事では、本書の関連リンクをまとめました。以前に書いた告知記事については、補足情報も付与します。 Amazon www.amazon.co.jp サンプルコード g…

AtCoder「日立製作所 社会システム事業部 プログラミングコンテスト2020」をPythonで解く

久しぶりにAtCoderのコンテストに参加しました。A, B問題の2完でした。 atcoder.jp A - Hitachi String(100点) 「Sの長さは1以上10以下」なので、hitachi文字列は高々5通りです S = input() hitachi = [ 'hi', 'hihi', 'hihihi', 'hihihihi', 'hihihihihi'…

「無観客試合」となる「R-1ぐらんぷり2020」に関する仮説と可視化

今夜のピン芸人ナンバーワン決定戦「R-1ぐらんぷり」は、流行する新型コロナウイルスの影響を受け、史上初めて無観客で開催されます*1。 この異例の事態を受けて、自分の中で「会場のウケ量が分かりづらく審査員が判断に困るのでは」という仮説が浮かびまし…

CatBoostのテキストカラム指定機能を試す

CatBoostの(カテゴリカラム指定ならぬ)テキストカラム指定機能を試してみました。本記事の内容は、discussion*1に投稿済です。 Kaggle「Real or Not? NLP with Disaster Tweets」*2コンペのデータセットを利用しました。 target_col = 'target' text_cols …

株式会社はてな東京オフィスを訪問してみた

ご縁があり、株式会社はてな東京オフィス*1を訪問しました。はてなブログは2016年9月から足掛け3年半、総計350記事以上書いてきた思い入れあるサービスです。 はてなブロガー、はてなに行く pic.twitter.com/W6CugHOgry— u++ (@upura0) March 2, 2020 お土産…

「Linear Quiz Blending」の概説

"Linear Quiz Blending" や "Netflix Blending" と呼ばれる技法について、少し前にまとめたスライドを公開しました。 少し前からKaggleをやっている方だと「Kaggle Tokyo Meetup #5」*1での、Kaggle Grandmasterのsmlyさんの発表が印象的かもしれません。 Ka…

【書籍メモ】『機械学習・深層学習による自然言語処理入門 scikit-learnとTensorFlowを使った実践プログラミング』

2月26日に刊行された『機械学習・深層学習による自然言語処理入門 scikit-learnとTensorFlowを使った実践プログラミング』を読みました。 「日本語」のデータで、「今の自然言語処理」をイチから学ぶ! 公式サイトの宣言文句が、本書の特徴を言い得ています…

Kaggle「WiDS Datathon 2020」コンペ解法まとめ

先日まで参加していたKaggle「WiDS Datathon 2020」コンペの解法まとめです。「検査データから1週間後の生死を当てる」というシンプルなテーブルコンペでした。本記事では、自分の復習用にザッとまとめたメモを共有します。 Place Link 1 https://www.kaggle…

「NLPコンペの知見を実務に活かすために」の題目で発表しました

本日開催された「Kaggle Google Quest Q&A Labeling 反省会」*1にて「NLPコンペの知見を実務に活かすために」の題目で発表しました。自作のPythonライブラリ「Ayniy」について、設計思想や具体例を紹介しました。 詳細な内容については然るべきタイミングで…

Kaggle「WiDS Datathon 2020」コンペ14位の取り組み

Kaggleで開催されていた「WiDS Datathon 2020」コンペに参加して、public 7位、private 14位でした。shake downしてしまいましたが、ほぼベストの提出を選択できていたので悔いはありません。「検査データから1週間後の生死を当てる」というシンプルなテーブ…

markdownからサクッと発表資料を作る「Marp」

本記事では、markdownからサクッと発表資料を作れる「Marp」を紹介します。込み入った配置や図形挿入などはできませんが、箇条書きメモを書き出してたら発表資料になっている感じで重宝しています。 Marp? https://yhatt.github.io/marp/ How? Install Marp …

イベント参加者用の名札をPythonで自動生成

先日開催した「Sports Analyst Meetup #6」*1では、イベント参加者の方々全員に名札を配布する試みを実施しました。 今日はここから! #spoana 名札が用意されてる!ありがとうございます(もっとまともな写真のアイコンにしよう) (@ 汐留ビルディング in 港…

【論文メモ】Self-training with Noisy Student improves ImageNet classification

twitterで流れてきたGoogleの論文が、最近のKaggleでも頻繁に使われる「Pseudo Labeling」を拡張した興味深いものでした。本記事では、簡単にこの論文を紹介します。 Last week we released the checkpoints for SOTA ImageNet models trained by NoisyStude…

「Sports Analyst Meetup #6」開催報告&発表まとめ

「Sports Analyst Meetup #6」を開催しました。 新型コロナウイルス感染症の影響を勘案し、直前に懇親会の中止を決定しての開催となりました。参加者の方々にご了承いただいた上、当日は運営に温かいお声がけをいただきましたこと、心よりお礼申し上げます。…

XGBoostやCNNを用いた「Data Journalism Awards 2019」受賞作

「Data Journalism Awards 2019」を受賞した全12作の中で、特に機械学習など高度なデータサイエンスを活用した事例があったので、簡単に概要を紹介します。 Radmesser 作品URL 受賞概要 概要 課題背景 目的 データ収集 データ分析 追い越しイベントの検出 地…

「Media Innovation Meetup #11 AIでメディアはどう変わるか」参加録 #MediaInnovation

「Media Innovation Meetup #11 AIでメディアはどう変わるか」に参加しました。6人の方々が登壇しました。 本イベントはブログ枠で参加したため、本記事にて簡単な参加録をまとめます。 「AIとメディアのこれから」と題して、近年発展が著しいAIがメディア作…

「Data Gateway Talk vol.5」に参加しました&全発表まとめ #dgtalk

データアナリスト/データサイエンティストの登竜門 (Gateway to Success) となることを目指した勉強会「Data Gateway Talk vol.5」に参加しました。 data-gateway-talk.connpass.com 対象を絞った勉強会で以前から関心はあり、今回が初参加です。 本記事では…

Kaggle PetFinderコンペで優勝しました

Kaggleで開催されていた「PetFinder.my Adoption Prediction」コンペ*1で優勝しました*2。素晴らしいチームメイトに恵まれた思い出深いコンペです。開催から1年近く経過した今でもチーム「Wodori」のSlackでは活発に議論が交わされており、常に互いに刺激を…

RData形式のデータセットをPythonで読み込む

Tl;DR rdataパッケージ*1を用いて、次のようにRData形式のデータセットを読み込める。 import rdata parsed = rdata.parser.parse_file('../data/vouchers.rda') converted = rdata.conversion.convert(parsed) vouchers = converted['vouchers'] 『効果検証…

移設した銀座線・渋谷駅から浅草駅まで歩いてみた

2020年初挑戦として、恒例の徒歩企画です。今回は、本日移設した銀座線・渋谷駅*1から、終点の浅草駅まで歩いてみました。全長は約14kmで、iPhoneの地図アプリでは直線距離で徒歩にて2時間50分の道のりでした。 渋谷 表参道 外苑前 青山一丁目 赤坂見附 溜池…

2019年をザッと振り返る

2019年をサクッと振り返ります。2018年の振り返り記事を見ると、次のような目標を書いていました*1。まだまだ力不足な面ばかりですが、ご縁に恵まれて昨年末には考えられない経験がいくつもできた一年だったと感じています。 引き続き「地道にコツコツ取り組…

東大の駒場キャンパスから本郷キャンパスまで歩いてみた

2019年の暮れの挑戦として、東大の駒場キャンパスから本郷キャンパスまで歩いてみました。2019年頭では東大の本郷キャンパスから柏キャンパスまで歩いた*1ので、対としての挑戦になります。懐かしい場所に来た pic.twitter.com/aQy1Kf1hVF— u++ (@upura0) De…

ニューズレター「Weekly Kaggle News」創刊

「Weekly Kaggle News」と冠したニューズレター*1を始めてみました。www.getrevue.co日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱う予定です。週次で、毎週金〜日ごろの更新を予定しています。個人的に、SNSが存分に普及…

ProbSpace給与推定コンペまとめ

「ProbSpace」というプラットフォームで開催された「給与推定」コンペが23日に終了しました。私は途中で まぐちさん とチームを組み、最終順位は7位でした。 prob.space PublicとPrivateが分かれていないのは残念でしたが、恐らく独自に作成したデータセット…

広島旅行記2019冬

2019年12月13〜16日の3泊4日で広島旅行に行ってきました。11月〜12月上旬に執筆やらイベントやらが重なっていたこともあり、しばしの休息です。個人的な備忘録として、写真を並べておきます。Kaggle Days Hiroshima 始まった pic.twitter.com/3iZ66xK6Qb— u+…

「Kaggle Days Tokyo」参加録

※ 「Kaggle Advent Calendar 2019」*1の12日目の記事です。2019年12月11、12日に開催された「Kaggle Days Tokyo」*2に参加しました。1日目はワークショップとプレゼンテーション、2日目はオフラインコンペティションが開催されました。資料や動画は恐らく公…