Poincaré Embeddings でJ1リーグのチーム・選手を可視化

python スポーツ

ふと「Poincaré Embeddings」*1で遊んでみたいと思い立ち、サッカーJ1リーグのデータで試してみました。 Poincaré Embeddings gensimでの実装とデータセット Poincaré Embeddingsの学習活用方法おわりに Poincaré Embeddings Poincaré Embeddingsに関する…

2019-08-27

データサイエンティストが活躍する系の映画をオススメしてもらった

随筆

データサイエンティストが活躍する系の映画、なんか無いかな。Netflix漁ったら何かありそう。— u++ (@upura0) August 26, 2019 私のtwitterでのしょうもない呟きに思いの外たくさんのリプライを頂戴したので、自分用の整理として推挙された映画をまとめます…

2019-08-24

「Sports Analyst Meetup #4」を開催＆LTしました #spoana

スポーツ

はじめに発表資料 togetter ロングトーク①高久侑也さん（株式会社Sportip）ロングトーク② TKB84さん LT 自分の発表おわりに過去の開催はじめに「Sports Analyst Meetup #4」を開催しました。前回に引き続き、自分自身もLTで発表しました。spoana.connp…

2019-08-20

テーブルデータ向けのGAN（TGAN）で、titanicのデータを増やす

Kaggle python

はじめに ynktk さんのツイート*1を見て、テーブルデータ向けの GAN の存在を知りました。本記事では、TGAN を用いて titanic のデータを拡張してみます。 TGANとはテーブルデータに対応した GAN (Generative Adversarial Network, 敵対的生成ネットワーク)…

2019-08-19

【ネタバレ有】『アルキメデスの大戦』とデータ分析の仕事

随筆 Kaggle

はじめに OsciiArtさんの下記のツイートで興味を持ち、観に行きました。本記事では、ネタバレ要素を含みつつ、徒然と感想を書いていこうと思います。『アルキメデスの大戦』を観た。傑作。kaggler、データサイエンティストは絶対に見て欲しい。kaggleのプロ…

2019-08-18

scikit-learn-contrib の Metric Learning を試す

Kaggle python

Metric Learning について Metric Learning は、データの教師情報を基にデータ間の距離や類似度などの Metric を学習する手法です。日本語で手軽に読める記事だと、*1, *2 などが詳しいです。このたび、phalanx さんの tweet *3で、 Metric Learning の基礎…

2019-08-11

【特徴量の追加編】機械学習を用いた大相撲千秋楽の勝敗予想

Kaggle python スポーツ

はじめに「連勝・連敗」特徴量の追加 tsfresh特徴量の追加おわりにはじめに前回は、「Sports Analyst Meetup #4」でのLTに向けて、ベンチマークとなる機械学習モデルを構築しました。新しい特徴量を追加することで、予測モデルの性能が向上することも確…

2019-08-06

【書籍メモ】『データマイニングエンジニアの教科書』

随筆

『データマイニングエンジニアの教科書』を読んだので、雑感を書きます。www.c-r.com『データマイニングエンジニアの教科書』読む〜 pic.twitter.com/J6vJboSAx9— u++ (@upura0) July 31, 2019 書籍の概要『データマイニングエンジニアの教科書』著者：森…

2019-08-05

【ベンチマーク編】機械学習を用いた大相撲千秋楽の勝敗予想

python Kaggle スポーツ

はじめにベンチマークの構築特徴量目的変数機械学習モデル Validation の構築評価性能新しい特徴量の追加追加する特徴量評価性能（新しい特徴量の追加）おわりにはじめに前回は、「Sports Analyst Meetup #4」でのLTに向けて、「Sumo Reference」…

2019-08-04

【可視化編】機械学習を用いた大相撲千秋楽の勝敗予想

python スポーツ

はじめにデータの収集仮説可視化おわりにはじめに前回は、「Sports Analyst Meetup #4」でのLTに向けて、大相撲のデータを収録している「Sumo Reference」を紹介しました。upura.hatenablog.com本記事では、「Sumo Reference」から収集したデータを用…

2019-07-28

Djangoで「名古屋/東京」の画像分類アプリを作った

python 画像処理

Djangoで簡単な画像分類アプリを作ってみた。Flickrから「名古屋」「東京」で画像を400枚ずつ収集して、KerasのVGG16使って分類器を学習。推論したい画像を渡して、結果を表示するところまで。分類器が適当でAUCが.65くらいなのはご愛嬌。 pic.twitter.com/E…

2019-07-26

大相撲のデータ収集は「Sumo Reference」が便利

スポーツ

まだ全然用意してないですが「機械学習を用いた大相撲千秋楽の勝敗予想」でLTしようと思います。LT枠空いているので、気軽に是非！「スポーツ×データ分析」に関係あれば競技問わず何でもOKです。 #spoana pic.twitter.com/9DPdyc9Tu2— u++ (@upura0) July 22…

2019-07-23

Udemy講座「【Python・Django・TensorFlow + 転移学習】画像分類AIアプリ自作入門」をやった

python

Udemy講座「【Python・Django・TensorFlow + 転移学習】画像分類AIアプリ自作入門」をやりました。タイトル通り、PythonのTensorFlowで作成した機械学習モデルをDjangoを用いてWebアプリ化する講座です。全3.5時間を一晩で流し見しながら追体験しましたが、…

2019-07-21

Kaggle Jigsawコンペ32位でした

Kaggle

KaggleのJigsawコンペにチーム参加して、32位で銀メダルでした。public 58位からは上昇しましたが、金メダル圏内にはもうひと押し足らずという結果でした。www.kaggle.comdiscussionにチームメイトのKazSappさんが投稿した通り、解法は6モデルの重み付き平均…

2019-07-18

LightGBMでtargetをsqrt(target)に変換して予測する「reg_sqrt=True」

Kaggle python

機械学習の教師あり学習における一つのテクニックとして、学習時の target 変換があります。昨晩に LightGBM の documentation を読んでいたところ、sqrt 限定ですが、target の変換を自動で処理してくれる parameter "reg_sqrt" を（恥ずかしながら初めて）…

2019-07-16

「長さの近いデータを同じbatchに入れる」の性能劣化と速度

Kaggle

先のKaggle Tokyo Meetup #6 でのtksさんの発表で触れられた「長さの近いデータを同じbatchに入れる」について、チームで参加した「Jigsaw Unintended Bias in Toxicity Classification | Kaggle」にて同じような取り組みをしていました。本記事では、Jigsaw…

2019-07-13

Kaggle Tokyo Meetup #6 にて「PetFinder 2nd Place Solution」の題目で発表しました

Kaggle 発表資料

「Kaggle Tokyo Meetup #6」に参加し、チーム Wodori の一員として「PetFinder 2nd Place Solution」の題目で発表もしました。connpass.com本記事では、各発表の簡単な感想などを述べます。twitterの #kaggle_tokyo や kaggler-ja slackの #event-live にも…

2019-07-12

Dockerのコンテナのメモリ上限の拡張

Kaggle

下記ブログを参考にDockerでデータ分析環境を構築した後、Dockerのコンテナのメモリ上限の関係でエラーが発生したのでメモしておきます。amalog.hateblo.jp 発生したエラー原因解決策おわりに発生したエラー The kernel appears to have died. It will r…

2019-06-30

「Sports Analyst Meetup #3」を開催＆LTしました #spoana

python スポーツ

はじめに発表資料 togetter ロングトーク「Jリーグ導入事例から見えてきた、ダイナミックプライシングの未来」 LT 自分の発表おわりに過去の開催はじめに「Sports Analyst Meetup #3」を開催しました。今回は自分自身もLTで発表しました。spoana.connpa…

2019-06-28

Microsoft/interpret で Kaggle titanic

Kaggle python

次のツイートを見かけて興味を持ったので、取りあえず使ってみました。使い方はGitHubのREADMEに記載がありますが、sklearnの機械学習モデルと同様に fit -> predict します。Microsoftが、解釈性が高くかつ精度も高いBoostingのモデル(Explainable Boosting…

2019-06-27

「データアナリストのキャリア」について登壇しました

発表資料

「データアナリスト・機械学習エンジニアの実情とAIキャリアの築き方」というイベントにお声掛けいただき、「社外で探る自分のキャリア」の題目で登壇しました。登壇者はドコモ・インサイトマーケティングの浅野さん、エムスリーの河合さんも含めた計3人で、…

2019-06-26

データセットの綴りミスは必ず直すべきか？

Kaggle

前回書いた記事では、綴りミスなどの修正に用いる辞書を手動で構築する方法を紹介しました。upura.hatenablog.com本記事では、Petfinderコンペを題材に「データセットの綴りミスは必ず直すべきか？」という問いについて考えたいと思います。自分なりの回答 …

2019-06-26

typo辞書を人力で作るためのTips

Kaggle 自然言語処理

準優勝したKaggleのPetfinderコンペでは、元データの英単語の綴りミスなどの修正に用いる辞書を手動で構築しました。upura.hatenablog.com本記事では、このような辞書を構築した方法についてまとめます。結論概説 embeddingのout of vocabularyとなる単語…

2019-06-19

日本語版text8コーパスから単語の分散表現を得る

python 自然言語処理

はじめに参照記事 GitHub 手順コーパスのダウンロード gensimでの読み込み Kaggle Kernel おわりにはじめに手軽に日本語の単語の分散表現を得ようと思ったら、これが良かった。数分でやりたいこと終わった。===日本語版text8コーパスを作って分散表現を…

2019-06-08

Kaggle地震コンペ振り返り(public 5th -> private 212th)

python Kaggle

2019年1〜6月にわたって開催されていたKaggleの「LANL Earthquake Prediction」コンペに参加し、銀メダルを獲得しました。public LBの時点では賞金圏の5位につけていて、ドキドキしながら最終結果を待ち構えていました。心臓ちぎれそうだけど、このドキドキ…

2019-06-07

人工知能学会2019＠新潟のご飯まとめ

随筆

2019年度人工知能学会全国大会 (第33回)に参加してきました。本記事では技術的な話は一切書かず、新潟で満喫したご飯をまとめます。www.ai-gakkai.or.jp 海老の髭須坂屋そば塚田牛乳ソフトクリームとんかつ政ちゃん朱鯱須坂屋そば廻転寿司弁慶おわ…

2019-06-01

AtCoder Beginner Contest 127をPythonで解く

python 競プロ

AtCoder Beginner Contest 127をPythonで解きました（A〜D）。atcoder.jp A - Ferris Wheel（100点）丁寧に条件分岐 A, B = list(map(int, input().split())) if (A <= 5): print(0) elif (A >= 13): print(B) else: print(B//2) B - Algae（200点）漸化式…

2019-05-31

AtCoder Beginner Contest 126をPythonで解く

python 競プロ

AtCoder Beginner Contest 126をPythonで解きました（A〜E）。atcoder.jp A - Changing a Character（100点）いろんなやり方はあると思うが、計算量も余裕があるので愚直にマッピング用のdictを用意し、K番目のときだけ適用する N, K = list(map(int, inpu…

2019-05-15

「サブスクリプションミートアップ vol.1」に参加しました（全発表まとめ）

随筆

本日開催された「サブスクリプションミートアップ vol.1」に参加しました。サブスクリプション事業における知見共有を目的とした会で、中でもKPIの運用・計測などアナリスト的観点の話が中心でした。subscription-meetup.connpass.com開催趣旨は、当日も説明…

2019-05-13

「Machine learning graph pitch #1」に参加しました（全発表まとめ）

Kaggle

本日開催された「Machine learning graph pitch #1」に参加しました。機械学習の中でも、特にグラフ関連の技術を実務で使っている5人の方々のLTをお聞きできました。machine-learning-pitch.connpass.com Improving "People You May Know" on Directed Socia…

u++の備忘録

2019-01-01から1年間の記事一覧

Poincaré Embeddings でJ1リーグのチーム・選手を可視化

データサイエンティストが活躍する系の映画をオススメしてもらった

「Sports Analyst Meetup #4」を開催＆LTしました #spoana

テーブルデータ向けのGAN（TGAN）で、titanicのデータを増やす

【ネタバレ有】『アルキメデスの大戦』とデータ分析の仕事

scikit-learn-contrib の Metric Learning を試す

【特徴量の追加編】機械学習を用いた大相撲千秋楽の勝敗予想

【書籍メモ】『データマイニングエンジニアの教科書』

【ベンチマーク編】機械学習を用いた大相撲千秋楽の勝敗予想

【可視化編】機械学習を用いた大相撲千秋楽の勝敗予想

Djangoで「名古屋/東京」の画像分類アプリを作った

大相撲のデータ収集は「Sumo Reference」が便利

Udemy講座「【Python・Django・TensorFlow + 転移学習】画像分類AIアプリ自作入門」をやった

Kaggle Jigsawコンペ32位でした

LightGBMでtargetをsqrt(target)に変換して予測する「reg_sqrt=True」

「長さの近いデータを同じbatchに入れる」の性能劣化と速度

Kaggle Tokyo Meetup #6 にて「PetFinder 2nd Place Solution」の題目で発表しました

Dockerのコンテナのメモリ上限の拡張

「Sports Analyst Meetup #3」を開催＆LTしました #spoana

Microsoft/interpret で Kaggle titanic

「データアナリストのキャリア」について登壇しました

データセットの綴りミスは必ず直すべきか？

typo辞書を人力で作るためのTips

日本語版text8コーパスから単語の分散表現を得る

Kaggle地震コンペ振り返り(public 5th -> private 212th)

人工知能学会2019＠新潟のご飯まとめ

AtCoder Beginner Contest 127をPythonで解く

AtCoder Beginner Contest 126をPythonで解く

「サブスクリプションミートアップ vol.1」に参加しました（全発表まとめ）

「Machine learning graph pitch #1」に参加しました（全発表まとめ）