u++の備忘録

東大・松尾研の社会人向けデータサイエンティスト育成講座を修了した

昨年11月から受講していた、東大の社会人向けデータサイエンティスト育成講座を修了しました。

東京大学グローバル消費インテリジェンス寄付講座:第2期 Data Science Online Course
http://gci.t.u-tokyo.ac.jp/dsonline/

講座の概要

講座のHPより抜粋。

・大量のデータを自由自在に解析・分析し、隠れた関係性を発見する。そんなスキルを身につけた「データサイエンティスト」に対する需要は、工学分野だけならず、医療・経済・経営・ライフサイエンスなど非常に多くの分野で高まる一方です。
・本コースでは、あらゆる分野で武器になるデータの解析・分析スキルのコアとなる機械学習およびビッグデータを扱う技術、分析結果を効果的に可視化する技術の基盤を網羅的に身につけ、一人前のデータサイエンティストとして活躍する入り口に立つことを目指します。

受講の仕組み

  • 全14回の講義+最終課題の構成
  • 毎週月曜日に講義資料が公開され、各自が講義資料を読んで各回の課題に取り組む
    • 締切:公開から1週間
    • 受講時間の目安:1回4時間(実際は最大でも1時間程度しかかかりませんでした)
  • 受講料無料、定員120人(エントリーシートGithub・ブログなどで選抜)
    • 今回は約800人の応募があったそうです
  • ブラウザ上からアクセス可能なフルスタックのLinux+Python開発環境が提供されました

カリキュラム

第1回(11/6):データサイエンティスト講座概要とPythonの基礎
第2回(11/13): Numpy、Scipy、Pandas、Matplotlibの基礎
第3回(11/20):記述統計学と単回帰分析
第4回(11/27):確率と統計の基礎
第5回(12/4): Pythonによる科学計算の基礎(NumpyとScipy)
第6回(12/11): Pandasを使ったデータ加工処理
第7回(12/18): Matplotlibを使ったデータ可視化
第8回(12/25):データベースとSQLの基礎
第9回(1/8): データベースの応用(高度なSQL処理と高速化)
第11回(1/15):機械学習の基礎(教師あり学習)
第12回(1/22): 機械学習の基礎(教師なし学習)
第13回(1/29): モデルの検証方法とチューニング方法
第10回(2/5):ドキュメント型DB(MongoDB)
第14回(2/12): データサイエンスティスト中級者への道
※ 都合により第10回が後ろ倒しに

感想

既にPythonを用いたデータ分析経験が多少あったので、学習内容自体はそこまで難易度は高くありませんでした。ただし独学で断片的な知識になってしまっている面もあったので、体系的な知見を蓄積できたという点で、学ぶべきことが多かったと思っています。講義内容が非公開なので、あまり具体的なことには言及できませんが、業務の合間を縫って無事に修了できて良かったです。