u++の備忘録

2019-01-01から1年間の記事一覧

2019年をザッと振り返る

2019年をサクッと振り返ります。2018年の振り返り記事を見ると、次のような目標を書いていました*1。まだまだ力不足な面ばかりですが、ご縁に恵まれて昨年末には考えられない経験がいくつもできた一年だったと感じています。 引き続き「地道にコツコツ取り組…

東大の駒場キャンパスから本郷キャンパスまで歩いてみた

2019年の暮れの挑戦として、東大の駒場キャンパスから本郷キャンパスまで歩いてみました。2019年頭では東大の本郷キャンパスから柏キャンパスまで歩いた*1ので、対としての挑戦になります。懐かしい場所に来た pic.twitter.com/aQy1Kf1hVF— u++ (@upura0) De…

ニューズレター「Weekly Kaggle News」創刊

「Weekly Kaggle News」と冠したニューズレター*1を始めてみました。www.getrevue.co日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱う予定です。週次で、毎週金〜日ごろの更新を予定しています。個人的に、SNSが存分に普及…

ProbSpace給与推定コンペまとめ

「ProbSpace」というプラットフォームで開催された「給与推定」コンペが23日に終了しました。私は途中で まぐちさん とチームを組み、最終順位は7位でした。 prob.space PublicとPrivateが分かれていないのは残念でしたが、恐らく独自に作成したデータセット…

広島旅行記2019冬

2019年12月13〜16日の3泊4日で広島旅行に行ってきました。11月〜12月上旬に執筆やらイベントやらが重なっていたこともあり、しばしの休息です。個人的な備忘録として、写真を並べておきます。Kaggle Days Hiroshima 始まった pic.twitter.com/3iZ66xK6Qb— u+…

「Kaggle Days Tokyo」参加録

※ 「Kaggle Advent Calendar 2019」*1の12日目の記事です。2019年12月11、12日に開催された「Kaggle Days Tokyo」*2に参加しました。1日目はワークショップとプレゼンテーション、2日目はオフラインコンペティションが開催されました。資料や動画は恐らく公…

TF-IDFを用いた「Kaggle流行語大賞2019」

「kaggle その2 Advent Calendar」の10日目の記事です*1。2018年に引き続き、2019年もTF-IDFを用いた「Kaggle流行語大賞」を算出します。具体的には、2019年に公開されたNotebookのタイトル情報から、頻繁に登場した単語をランキング形式でまとめました。な…

Japan.R 2019にて「KaggleとRコンペの紹介」の題目で発表しました

「kaggle その2 Advent Calendar」の7日目の記事です*1。本日開催された「Japan.R 2019」*2にて「KaggleとRコンペの紹介」の題目で発表しました。TokyoRでは2度発表したことがあるのですが*3*4、JapanRは初参加でした。幅広い世代の方が多様なジャンルの発表…

Glideで手軽にJapan.R 2019 の非公式アプリを作ってみた

R

「R Advent Calendar 2019」の6日目の記事です。qiita.com 概要 作り方 Google Spreadsheet 設計画面 アプリ構成 おわりに 概要 明日12月7日に開催される「Japan.R 2019」*1*2の非公式アプリを作ってみました。ea1gv.glideapp.io 作り方 11月6日に公開されて…

小数点以下を取り出す特徴量エンジニアリングの解釈と実装

Couseraの「How to Win a Data Science Competition: Learn from Top Kagglers」*1などで紹介されている特徴量エンジニアリングのアイディアの一つとして「数値データの小数点以下を取り出す」という技法があります。本記事では簡単な解釈を述べ、Pythonによ…

Pythonを用いたKaggle入門書を2020年3月に講談社から出版します

このたびご縁があり、Pythonを用いたKaggle入門書を講談社から出版する運びとなりました*1。現在デザインや校正などを進めている段階で、発売開始は2020年3月17日を予定しています。https://www.amazon.co.jp/dp/4065190061同人誌ながら累計2500部以上を売り…

【書籍メモ】『経済セミナー12・1月号』特集「機械学習は経済学を変えるのか」

Twitterで流れてきた『経済セミナー12・1月号』特集「機械学習は経済学を変えるのか」が面白そうだったので購入しました。簡単にメモしておきます。#経セミ 12・1月号の特集ラインナップ:対談=デジタル化と機械学習が社会を変える…上野山勝也×成田悠輔経済…

「Sports Analyst Meetup」 #spoana を2019年に5回開催した話

「スポーツアナリティクス Advent Calendar 2019」*1の1日目の記事です。 はじめに 発足の背景 第1回(2月24日) 第2回(5月12日) 第3回(6月30日) 第4回(8月24日) 第5回(11月2日) おわりに はじめに スポーツデータ分析を題材にした「Sports Analyst …

渋谷駅から横浜駅まで東横線を歩いてみた

何となく気が乗ってきたし、明日久々に歩くやつやるか‍♂️— u++ (@upura0) November 29, 2019 何となく気分が乗ったので、渋谷駅から横浜駅まで東横線を歩いてみました。本ブログの定期シリーズの第4弾です。 山手線*1 東大本郷キャンパス〜柏キャンパス*2 千…

「マイナビ × SIGNATE Student Cup 2019: 賃貸物件の家賃予測」まとめ

はじめに 一覧 コンペ概要 評価関数 データ コンペ設計 表彰 予測精度賞(1位解法) 前処理・特徴量エンジニアリング 建物IDの付与 同一建物内での回帰モデル CatBoost Stacking Stratified Stacking Adaptive Stacking アイデア賞 賃料と合わせて緯度・経度…

J2降格からJ1復帰にかかった年数をまとめた

諸事情*1でJ2降格に関する情報が気になっている今日このごろ、J2降格からJ1復帰にかかった年数をまとめてみました。降格・昇格チームの一覧*2を見ながら、手作業で処理しました。良い可視化方法が思いつかなかったので、一旦は表形式です。元データはGitHub*…

「第二回全国統一プログラミング王決定戦予選」参加録

「第二回全国統一プログラミング王決定戦予選」に参加してA, Bの2完でした。約7カ月ぶりのRated参加だったこともあり、「あまりを計算し忘れる」という初歩的な見落としで爆死しました。。。atcoder.jp A - Sum of Two Integers(100点) 偶数と奇数で場合分…

「Sports Analyst Meetup #5」を開催しました #spoana

はじめに 発表資料 togetter ロングトーク①「batter pitcher 2 vec」 ロングトーク②「野球界でのシステム導入事例~IT企業としてのサポート~」 LT ご協力いただいた企業 おわりに はじめに 「Sports Analyst Meetup #5」を開催しました。spoana.connpass.co…

弊ブログの「Techブログスコア」を算出した

とある記事を見て、自分のブログも執筆数はそこそこあるので良い線行くのではないかと思って集計してみました。僕の個人ブログも、そこそこ良いところ行くんじゃなかろうか。===150社のTechブログを分析して見えた、エンジニアが今転職するべき企業ランキン…

「初手LightGBM」をする7つの理由

Kaggleなどのデータ分析コンペでテーブルデータを扱う場合、最近は取りあえずLightGBMを利用する場合が多いです。本記事では、初手の機械学習アルゴリズムとして「LightGBM」*1を採用する理由を紹介します。あくまで2019年10月末時点での個人の主観なので、…

Adversarial Validationを用いた特徴量選択

先日公開した「IEEE-CIS Fraud Detection」コンペの解法*1の中で、Adversarial Validationの考え方を用いた特徴量選択について何回か質問がありました。本記事では、Adversarial Validationの考え方を用いた特徴量選択を解説します。 Adversarial Validation…

「Kaggle Grandmasterに聞く!-トップデータサイエンティストの過去・現在・未来-」に登壇しました

データサイエンティスト協会 6thシンポジウム「Kaggle Grandmasterに聞く!-トップデータサイエンティストの過去・現在・未来-」に、モデレーターとして登壇しました。www.datascientist.or.jp私がGrandmasterのJackさん、Onoderaさんに質問する形式のパネ…

Kaggle「IEEE-CIS Fraud Detection」コンペ参加録

Kaggle「IEEE-CIS Fraud Detection」コンペに個人で参加して、2485位でした。public lb スコアだと2800位程度の提出でshake upを狙ったのですが妥当な結果に終わった次第です。本記事では、discussionに投稿した内容を基に、本コンペでの取り組みをまとめま…

【書評】『Kaggleで勝つデータ分析の技術』(技術評論社)

限定の先行販売*1で紙版を入手した『Kaggleで勝つデータ分析の技術』(技術評論社)を読みました。なお電子版をご恵贈いただく予定です。gihyo.jp10月7日の発売を待たずして Amazon*2のベストセラー1位になるなど、注目を集めています。既に著者の一人である…

ブログを始めて3年経った

本ブログを2016年9月24日に始めて、先日で丸3年が経ちました*1。主にデータ分析に関する話題や個人の随筆など、広く世間一般に需要があるわけではない内容を書き連ねているブログですが、多くの方々にご覧いただけて非常に嬉しく感じています。最近は本ブロ…

技術書典7で入手した書籍まとめ

2019年9月22日に開催された「技術書典7」に参加してきました。本記事では、入手した書籍の一覧をまとめます。各書籍は読了後に必要ならば別途感想を投稿したいと思っています。techbookfest.org 『とらラボ vol.3』 『Tech Do Book #2』 『ぼくのCtrl+Alt+Z …

「ML@Loft #6」参加メモ

「ML@Loft #6」に参加しました。 ML@Loft は AWS 上で機械学習ワークロードを運用しているデベロッパー/データサイエンティストのための、お悩み相談会です。 第6回は MLPP #4 との共催で、これまでも人気だった "自然言語処理 (NLP) / レコメンド" や "時系…

AI×愛知の「AIchi勉強会」でKaggleの魅力について発表しました

愛知県名古屋市で開催された「AIchi勉強会」で、Kaggleの魅力について発表しました。愛知県出身という縁でお声がけいただいた形です。 愛知県の製造業の異なる会社で働く、AI・機械学習に興味を持つメンバー3人中心に「愛知県で会社を越えてAIに興味ある人、…

「なんでデータサイエンティストやってるの?」に登壇しました&全発表メモ

「なんでデータサイエンティストやってるの? 〜 思い描いていた自分を思い出すために。 vol.4」というイベントに登壇しました。 イベントの概要 企業で働くデータサイエンティストが、各々の内的動機を語るイベントでした。nan-d-vol4.peatix.com 発表 自分…

csv化で文字列になったlistやdictを元に戻す

配列が格納されているレコードを含む csv を df で呼び出すと配列の部分が str に変換されてしまうのですが、解決手段ないですか。。— かえるるる | krrr (@kaeru_nantoka) September 3, 2019csv化すると文字列になってしまう仕様があるのでpickle形式などで…