「ML@Loft #6」に参加しました。

ML@Loft は AWS 上で機械学習ワークロードを運用しているデベロッパー/データサイエンティストのための、お悩み相談会です。第6回は MLPP #4 との共催で、これまでも人気だった "自然言語処理 (NLP) / レコメンド" や "時系列解析" をテーマに、サービス導入する際のポイントや悩みについて議論します。

発表

LT1 - 富士通研の時系列データ解析技術

梅田裕平さん（株式会社富士通研究所）

drive.google.com

富士通研究所の人工知能研究所の梅田さんによる発表
富士通研究所の人工知能研究所の「黒魔術的な」研究開発の思想を紹介
- 特にトポロジカルデータ分析を用いた時系列データ解析技術について

「トポロジカルデータアナリシスと時系列データ解析への応用」https://t.co/G55C13Sa3e #mlpp #mlloft
— u++ (@upura0) September 20, 2019

「IoT機器の時系列データ処理への取り組み」https://t.co/0cM7oT1rfw #mlpp #mlloft
— u++ (@upura0) September 20, 2019

LT2 - ゼロベースからの論文レコメンドシステムの構築

河合俊典さん（エムスリー株式会社）

医者向けの論文のレコメンドシステムの構築
製薬企業が医療情報を勉強するためにも使われる
要件
- 基本的にはML業界と同じ
- 分野の重なりの大小が激しい
  - 糖尿病などの合併症の範囲絵が広い病気
  - 希少疾患
  - ワードの揺れ（MRという略語が複数の意味を持つ）
- 年間数万件です最新の論文に対応したい（コールドスタート問題）
- ある程度ユーザ行動に応じて動的に動く
- 医療関係者に納得感のある評価
手法
- 医師と論文の名寄せ
  - 決定木でユニークIDを振る
- お医者さんの興味ワードの生成
  - Label Propagation
- Elasticsearchに投げる
- レコメンドエンジンの作成
  - content-based citation recommendation
- コールドスタート問題に対処すべく、ユーザが興味のある単語の情報だけではなく、citation情報や過去に医師が書いた論文の情報も複合的に利用して推薦する
評価
- 最初はM3の編集部にアドバイスを貰いつつモデル化
- 実データを用いて、CTR、MRR、MAPを算出
  - データ数、カテゴリ数に課題はある

LT3 - 社内の XX に詳しい人を知りたい

押条祐哉さん（ストックマーク株式会社）

Mlpp #4 & mlloft #6 from yuyaosujo

Anews
- ビジネスニュースの配信
- チームの人が読んだ記事も読める
- 記事にコメントも付けられる
- チームの共通知のアップデート
Anewsの刷新にあたり、特定のキーワードやニュースで検索した時に詳しい社内人物1人を推薦するシステムの構築
- 「Who knows what?」
記事データとユーザ行動ログが使える
推薦アルゴリズム
- 協調フィルタリングではなく、コンテンツベーツ
- ユーザベクトルと記事ベクトルのcos類似度ベースのスコアを利用
- 記事ベクトルの閲覧数が最も多いクラスタの中心をユーザベクトルにして、dynamodbへ格納
  - 記事のタイトルと最初の名詞数単語の入力として、fastText
課題
- ユーザベクトルの定義方法
  - コールドスタート問題
  - 他にも取れるデータで有用なものがあるかも
- 評価指標
  - A/Bテストやオンラインテストなど検討中

LT4 - ESG評価を支える自然言語処理基盤の構築

久保隆宏さん（TIS株式会社）

ESG評価を支える自然言語処理基盤の構築 from Takahiro Kubo

ESG投資、持続可能な発展の可能性を考慮
7つの手法があるが、何らかの「ESG評価」をしている
- さまざまな評価機関が存在
- 各機関の評価に相関がなさすぎる
人力での評価には限界がある→NLPの利用
支援レベル
- 文書データの収集（CSR報告書・結合報告書）
  - AWS上に仕組みを構築、Lambdaを起動
  - StepFunctionで構築してGlue Crawlerを呼ぶ方式を採用
  - ビューはAthena
  - 作成したデータ5年分を近日公開予定
- 評価対象となる文・段落の絞り込み
  - プロトタイプ検証予定
- 自動評価
課題
- データ収集
- 営業
- プロトタイプ開発
- 評価
- 自然言語処理
所感
- 「見た目ではESG評価はレポートの見た目では変わらない」
- 書きっぷりを頑張ってほしい
- その辺に転がっているデータで価値が出ることはほぼ無い
- 地道なアノテーションが大切