u++の備忘録

XGBoostやCNNを用いた「Data Journalism Awards 2019」受賞作

Data Journalism Awards 2019」を受賞した全12作の中で、特に機械学習など高度なデータサイエンスを活用した事例があったので、簡単に概要を紹介します。

Radmesser

By ドイツの新聞社「Der Tagesspiegel

作品URL

interaktiv.tagesspiegel.de

受賞概要

https://datajournalismawards.org/projects/radmesser/

概要

課題背景

  • 自転車に乗る人たちから「追い抜きの車の接近が怖くて市街で自転車に乗りづらい」との声が挙がっていた
  • ドイツでは自転車に乗った人を車が追い越す際の接近距離に関する法的規制はあるが、この問題に関する具体的なデータは存在せず、おざなりになっていた

目的

  • データを収集し、定性的にとどまらない定量的な問題提起を発する

データ収集

  • スマートフォンアプリと、自転車に対する車の追い越し距離を測定できるセンサーキットを開発
  • 最初は100人の読者に配布、話題になり最終的な協力者は2500人に
  • 2カ月を経て総計13,500 km分のデータを収集し、17,000回の追い越しを記録

データ分析

追い越しイベントの検出

  • 「YOLO V3」の畳み込みニューラルネットワークアプローチで画像検出
  • 高速化のためにCUDA + NVIDIA GPUを用いた
  • 追い越しイベント3000件を手動で(!)ラベル付け
  • 画像情報を基に3000件でXGBoostを学習し、ラベルなし画像について予測
  • 予測した画像7000件について手動で(!)結果を確認
  • 発生していた追い越しのうち、56%は違法に近いものだと分かった

地理情報などの分析

  • ヘルメット、性別、インフラなど、データのさまざまな相関関係を調査
  • 行政が提供する道路および自転車インフラのデータセットも使用

結果の可視化

チーム構成

  • ジャーナリスト、物理学者、機械学習の専門家からなる学際的なチーム
  • 読者の協力者2500人

おわりに

本記事では、「Data Journalism Awards 2019」を受賞したドイツの新聞社「Der Tagesspiegel」の作品「Radmesser」を紹介しました。

データ取得・分析・可視化のプロジェクト全体の一連の流れがどれも優れている作品だと感じました。特に機械学習教師あり学習を上手に活用している点、かつ人力で丁寧な検証を重ねている点が素晴らしかったです。受賞概要の中で「jupyter lab」「pandas」「scikit-learn」「seaborn」「folium」といった馴染みのあるPythonパッケージも列挙されており、興味深い作品でした。

f:id:upura:20200131173907j:plain Photo by shota James on Unsplash