u++の備忘録

2019-08-01から1ヶ月間の記事一覧

データサイエンティストが活躍する系の映画をオススメしてもらった

データサイエンティストが活躍する系の映画、なんか無いかな。Netflix漁ったら何かありそう。— u++ (@upura0) August 26, 2019 私のtwitterでのしょうもない呟きに思いの外たくさんのリプライを頂戴したので、自分用の整理として推挙された映画をまとめます…

「Sports Analyst Meetup #4」を開催&LTしました #spoana

はじめに 発表資料 togetter ロングトーク①高久侑也さん(株式会社Sportip) ロングトーク② TKB84さん LT 自分の発表 おわりに 過去の開催 はじめに 「Sports Analyst Meetup #4」を開催しました。前回に引き続き、自分自身もLTで発表しました。spoana.connp…

テーブルデータ向けのGAN(TGAN)で、titanicのデータを増やす

はじめに ynktk さんのツイート*1を見て、テーブルデータ向けの GAN の存在を知りました。本記事では、TGAN を用いて titanic のデータを拡張してみます。 TGANとは テーブルデータに対応した GAN (Generative Adversarial Network, 敵対的生成ネットワーク)…

【ネタバレ有】『アルキメデスの大戦』とデータ分析の仕事

はじめに OsciiArtさんの下記のツイートで興味を持ち、観に行きました。本記事では、ネタバレ要素を含みつつ、徒然と感想を書いていこうと思います。『アルキメデスの大戦』を観た。傑作。kaggler、データサイエンティストは絶対に見て欲しい。kaggleのプロ…

scikit-learn-contrib の Metric Learning を試す

Metric Learning について Metric Learning は、データの教師情報を基にデータ間の距離や類似度などの Metric を学習する手法です。日本語で手軽に読める記事だと、*1, *2 などが詳しいです。このたび、phalanx さんの tweet *3で、 Metric Learning の基礎…

【特徴量の追加編】機械学習を用いた大相撲千秋楽の勝敗予想

はじめに 「連勝・連敗」特徴量の追加 tsfresh特徴量の追加 おわりに はじめに 前回は、「Sports Analyst Meetup #4」でのLTに向けて、ベンチマークとなる機械学習モデルを構築しました。新しい特徴量を追加することで、予測モデルの性能が向上することも確…

【書籍メモ】『データマイニングエンジニアの教科書』

『データマイニングエンジニアの教科書』を読んだので、雑感を書きます。www.c-r.com『データマイニングエンジニアの教科書』読む〜 pic.twitter.com/J6vJboSAx9— u++ (@upura0) July 31, 2019 書籍の概要 『データマイニングエンジニアの教科書』 著者:森…

【ベンチマーク編】機械学習を用いた大相撲千秋楽の勝敗予想

はじめに ベンチマークの構築 特徴量 目的変数 機械学習モデル Validation の構築 評価性能 新しい特徴量の追加 追加する特徴量 評価性能(新しい特徴量の追加) おわりに はじめに 前回は、「Sports Analyst Meetup #4」でのLTに向けて、「Sumo Reference」…

【可視化編】機械学習を用いた大相撲千秋楽の勝敗予想

はじめに データの収集 仮説 可視化 おわりに はじめに 前回は、「Sports Analyst Meetup #4」でのLTに向けて、大相撲のデータを収録している「Sumo Reference」を紹介しました。upura.hatenablog.com本記事では、「Sumo Reference」から収集したデータを用…