u++の備忘録

第43回阪大AIメディカル研究会にて「野球データ分析ハッカソン準優勝解法と特徴量重要度」の題目で発表しました

はじめに

12月22日に開催された「第43回阪大AIメディカル研究会」にて「野球データ分析ハッカソン準優勝解法と特徴量重要度」の題目で発表しました。

下記の記事で取り上げたハッカソンのについての発表です。

upura.hatenablog.com

12月21〜23日に京都・大阪に独り旅をしているのですが、ご縁あって発表の機会を頂くことになりました。


発表資料


その他の発表(メモ)

可視化ライブラリplotlyの布教

  • カーソルを当てた時に数字やラベルなどを表示してくれる
  • 日本語がデフォルトで問題なく使える利点あり
  • Jupyter Labだとextensionを追加する必要がある
  • チートシートもあるらしい
  • 「HoloViews」を使っている人もいた

qiita.com

ずっと惰性でmatplotlibを使っているので、もう少しいろんな可視化ライブラリを検討しても良いなと思いました。notebookを共有する形式の発表で、再現性の面でも布教活動として素晴らしいです。

ニューラルネット生成モデル(GAN)について

  • GANについて、数式を交えて分かりやすく解説
  • the-gan-zooというリポジトリがある
  • GANの問題点
    • Mode collapse
      • 生成器が観測データの一部の分布だけを学習し、特定の最頻値に近い値のみを出力してしまう現象
      • GANの目的関数の設計上「一部だけでも、騙せれば良い」という発想になっている
    • 明確な評価方法がない
      • 学習が不安定(どこで打ち切れば良いのか)
  • さまざまな対応策が進展しつつある
    • 目的関数に「輸送コスト」の概念を与えることで理論的に安定な学習法(WGAN)
    • 重みに制約を与えることで、安定かつ性能が高い(WGAN-GP)

GANは最近有象無象に研究が進展している印象でしたが、時代の流れに沿ってGANの課題と理論的な対応策を数式も含めてまとめてくださっており、自分の理解の整理ができました。

二分探索の解説

  • KaggleのKernelを用いて「二分探索」を解説
  • AtCoderような自動ジャッジシステムを、KaggleのKernel上に実装
  • Kernelの仕様のせいか、黒魔術的なコードが多かった

KaggleのKernelはユーザが環境を準備する必要もなく使えるので、その上このような自動ジャッジシステムがあれば、初心者の入門教材として非常に優れていると思いました。

[追記 20181223] この発表内容を元にしたQiita記事が公開されました。
qiita.com

おわりに

突然お邪魔したにもかかわらず、暖かく迎えていただき、ありがとうございました!さまざま議論もできて、非常に勉強になりました。

運営の皆さま、参加者の皆さまに改めてお礼申し上げます。