u++の備忘録

「Kaggle Grandmasterに聞く!-トップデータサイエンティストの過去・現在・未来-」に登壇しました

データサイエンティスト協会 6thシンポジウム「Kaggle Grandmasterに聞く!-トップデータサイエンティストの過去・現在・未来-」に、モデレーターとして登壇しました。www.datascientist.or.jp私がGrandmasterのJackさん、Onoderaさんに質問する形式のパネ…

Kaggle「IEEE-CIS Fraud Detection」コンペ参加録

Kaggle「IEEE-CIS Fraud Detection」コンペに個人で参加して、2485位でした。public lb スコアだと2800位程度の提出でshake upを狙ったのですが妥当な結果に終わった次第です。本記事では、discussionに投稿した内容を基に、本コンペでの取り組みをまとめま…

【書評】『Kaggleで勝つデータ分析の技術』(技術評論社)

限定の先行販売*1で紙版を入手した『Kaggleで勝つデータ分析の技術』(技術評論社)を読みました。なお電子版をご恵贈いただく予定です。gihyo.jp10月7日の発売を待たずして Amazon*2のベストセラー1位になるなど、注目を集めています。既に著者の一人である…

ブログを始めて3年経った

本ブログを2016年9月24日に始めて、先日で丸3年が経ちました*1。主にデータ分析に関する話題や個人の随筆など、広く世間一般に需要があるわけではない内容を書き連ねているブログですが、多くの方々にご覧いただけて非常に嬉しく感じています。最近は本ブロ…

技術書典7で入手した書籍まとめ

2019年9月22日に開催された「技術書典7」に参加してきました。本記事では、入手した書籍の一覧をまとめます。各書籍は読了後に必要ならば別途感想を投稿したいと思っています。techbookfest.org 『とらラボ vol.3』 『Tech Do Book #2』 『ぼくのCtrl+Alt+Z …

「ML@Loft #6」参加メモ

「ML@Loft #6」に参加しました。 ML@Loft は AWS 上で機械学習ワークロードを運用しているデベロッパー/データサイエンティストのための、お悩み相談会です。 第6回は MLPP #4 との共催で、これまでも人気だった "自然言語処理 (NLP) / レコメンド" や "時系…

AI×愛知の「AIchi勉強会」でKaggleの魅力について発表しました

愛知県名古屋市で開催された「AIchi勉強会」で、Kaggleの魅力について発表しました。愛知県出身という縁でお声がけいただいた形です。 愛知県の製造業の異なる会社で働く、AI・機械学習に興味を持つメンバー3人中心に「愛知県で会社を越えてAIに興味ある人、…

「なんでデータサイエンティストやってるの?」に登壇しました&全発表メモ

「なんでデータサイエンティストやってるの? 〜 思い描いていた自分を思い出すために。 vol.4」というイベントに登壇しました。 イベントの概要 企業で働くデータサイエンティストが、各々の内的動機を語るイベントでした。nan-d-vol4.peatix.com 発表 自分…

csv化で文字列になったlistやdictを元に戻す

配列が格納されているレコードを含む csv を df で呼び出すと配列の部分が str に変換されてしまうのですが、解決手段ないですか。。— かえるるる | krrr (@kaeru_nantoka) September 3, 2019csv化すると文字列になってしまう仕様があるのでpickle形式などで…

Poincaré Embeddings でJ1リーグのチーム・選手を可視化

ふと「Poincaré Embeddings」*1で遊んでみたいと思い立ち、サッカーJ1リーグのデータで試してみました。 Poincaré Embeddings gensimでの実装とデータセット Poincaré Embeddingsの学習 活用方法 おわりに Poincaré Embeddings Poincaré Embeddingsに関する…

データサイエンティストが活躍する系の映画をオススメしてもらった

データサイエンティストが活躍する系の映画、なんか無いかな。Netflix漁ったら何かありそう。— u++ (@upura0) August 26, 2019 私のtwitterでのしょうもない呟きに思いの外たくさんのリプライを頂戴したので、自分用の整理として推挙された映画をまとめます…

「Sports Analyst Meetup #4」を開催&LTしました #spoana

はじめに 発表資料 togetter ロングトーク①高久侑也さん(株式会社Sportip) ロングトーク② TKB84さん LT 自分の発表 おわりに 過去の開催 はじめに 「Sports Analyst Meetup #4」を開催しました。前回に引き続き、自分自身もLTで発表しました。spoana.connp…

テーブルデータ向けのGAN(TGAN)で、titanicのデータを増やす

はじめに ynktk さんのツイート*1を見て、テーブルデータ向けの GAN の存在を知りました。本記事では、TGAN を用いて titanic のデータを拡張してみます。 TGANとは テーブルデータに対応した GAN (Generative Adversarial Network, 敵対的生成ネットワーク)…

【ネタバレ有】『アルキメデスの大戦』とデータ分析の仕事

はじめに OsciiArtさんの下記のツイートで興味を持ち、観に行きました。本記事では、ネタバレ要素を含みつつ、徒然と感想を書いていこうと思います。『アルキメデスの大戦』を観た。傑作。kaggler、データサイエンティストは絶対に見て欲しい。kaggleのプロ…

scikit-learn-contrib の Metric Learning を試す

Metric Learning について Metric Learning は、データの教師情報を基にデータ間の距離や類似度などの Metric を学習する手法です。日本語で手軽に読める記事だと、*1, *2 などが詳しいです。このたび、phalanx さんの tweet *3で、 Metric Learning の基礎…

【特徴量の追加編】機械学習を用いた大相撲千秋楽の勝敗予想

はじめに 「連勝・連敗」特徴量の追加 tsfresh特徴量の追加 おわりに はじめに 前回は、「Sports Analyst Meetup #4」でのLTに向けて、ベンチマークとなる機械学習モデルを構築しました。新しい特徴量を追加することで、予測モデルの性能が向上することも確…

【書籍メモ】『データマイニングエンジニアの教科書』

『データマイニングエンジニアの教科書』を読んだので、雑感を書きます。www.c-r.com『データマイニングエンジニアの教科書』読む〜 pic.twitter.com/J6vJboSAx9— u++ (@upura0) July 31, 2019 書籍の概要 『データマイニングエンジニアの教科書』 著者:森…

【ベンチマーク編】機械学習を用いた大相撲千秋楽の勝敗予想

はじめに ベンチマークの構築 特徴量 目的変数 機械学習モデル Validation の構築 評価性能 新しい特徴量の追加 追加する特徴量 評価性能(新しい特徴量の追加) おわりに はじめに 前回は、「Sports Analyst Meetup #4」でのLTに向けて、「Sumo Reference」…

【可視化編】機械学習を用いた大相撲千秋楽の勝敗予想

はじめに データの収集 仮説 可視化 おわりに はじめに 前回は、「Sports Analyst Meetup #4」でのLTに向けて、大相撲のデータを収録している「Sumo Reference」を紹介しました。upura.hatenablog.com本記事では、「Sumo Reference」から収集したデータを用…

Djangoで「名古屋/東京」の画像分類アプリを作った

Djangoで簡単な画像分類アプリを作ってみた。Flickrから「名古屋」「東京」で画像を400枚ずつ収集して、KerasのVGG16使って分類器を学習。推論したい画像を渡して、結果を表示するところまで。分類器が適当でAUCが.65くらいなのはご愛嬌。 pic.twitter.com/E…

大相撲のデータ収集は「Sumo Reference」が便利

まだ全然用意してないですが「機械学習を用いた大相撲千秋楽の勝敗予想」でLTしようと思います。LT枠空いているので、気軽に是非!「スポーツ×データ分析」に関係あれば競技問わず何でもOKです。 #spoana pic.twitter.com/9DPdyc9Tu2— u++ (@upura0) July 22…

Udemy講座「【Python・Django・TensorFlow + 転移学習】画像分類AIアプリ自作入門」をやった

Udemy講座「【Python・Django・TensorFlow + 転移学習】画像分類AIアプリ自作入門」をやりました。タイトル通り、PythonのTensorFlowで作成した機械学習モデルをDjangoを用いてWebアプリ化する講座です。全3.5時間を一晩で流し見しながら追体験しましたが、…

Kaggle Jigsawコンペ32位でした

KaggleのJigsawコンペにチーム参加して、32位で銀メダルでした。public 58位からは上昇しましたが、金メダル圏内にはもうひと押し足らずという結果でした。www.kaggle.comdiscussionにチームメイトのKazSappさんが投稿した通り、解法は6モデルの重み付き平均…

LightGBMでtargetをsqrt(target)に変換して予測する「reg_sqrt=True」

機械学習の教師あり学習における一つのテクニックとして、学習時の target 変換があります。昨晩に LightGBM の documentation を読んでいたところ、sqrt 限定ですが、target の変換を自動で処理してくれる parameter "reg_sqrt" を(恥ずかしながら初めて)…

「長さの近いデータを同じbatchに入れる」の性能劣化と速度

先のKaggle Tokyo Meetup #6 でのtksさんの発表で触れられた「長さの近いデータを同じbatchに入れる」について、チームで参加した「Jigsaw Unintended Bias in Toxicity Classification | Kaggle」にて同じような取り組みをしていました。本記事では、Jigsaw…

Kaggle Tokyo Meetup #6 にて「PetFinder 2nd Place Solution」の題目で発表しました

「Kaggle Tokyo Meetup #6」に参加し、チーム Wodori の一員として「PetFinder 2nd Place Solution」の題目で発表もしました。connpass.com本記事では、各発表の簡単な感想などを述べます。twitterの #kaggle_tokyo や kaggler-ja slackの #event-live にも…

Dockerのコンテナのメモリ上限の拡張

下記ブログを参考にDockerでデータ分析環境を構築した後、Dockerのコンテナのメモリ上限の関係でエラーが発生したのでメモしておきます。amalog.hateblo.jp 発生したエラー 原因 解決策 おわりに 発生したエラー The kernel appears to have died. It will r…

「Sports Analyst Meetup #3」を開催&LTしました #spoana

はじめに 発表資料 togetter ロングトーク「Jリーグ導入事例から見えてきた、ダイナミックプライシングの未来」 LT 自分の発表 おわりに 過去の開催 はじめに 「Sports Analyst Meetup #3」を開催しました。今回は自分自身もLTで発表しました。spoana.connpa…

Microsoft/interpret で Kaggle titanic

次のツイートを見かけて興味を持ったので、取りあえず使ってみました。使い方はGitHubのREADMEに記載がありますが、sklearnの機械学習モデルと同様に fit -> predict します。Microsoftが、解釈性が高くかつ精度も高いBoostingのモデル(Explainable Boosting…

「データアナリストのキャリア」について登壇しました

「データアナリスト・機械学習エンジニアの実情とAIキャリアの築き方」というイベントにお声掛けいただき、「社外で探る自分のキャリア」の題目で登壇しました。登壇者はドコモ・インサイトマーケティングの浅野さん、エムスリーの河合さんも含めた計3人で、…