「ML@Loft #6」参加メモ
「ML@Loft #6」に参加しました。
ML@Loft は AWS 上で機械学習ワークロードを運用しているデベロッパー/データサイエンティストのための、お悩み相談会です。 第6回は MLPP #4 との共催で、これまでも人気だった "自然言語処理 (NLP) / レコメンド" や "時系列解析" をテーマに、サービス導入する際のポイントや悩みについて議論します。
machine-learning-pitch.connpass.com
発表
LT1 - 富士通研の時系列データ解析技術
梅田 裕平さん(株式会社富士通研究所)
「トポロジカルデータアナリシスと時系列データ解析への応用」https://t.co/G55C13Sa3e#mlpp #mlloft
— u++ (@upura0) September 20, 2019
「IoT機器の時系列データ処理への取り組み」https://t.co/0cM7oT1rfw#mlpp #mlloft
— u++ (@upura0) September 20, 2019
LT2 - ゼロベースからの論文レコメンドシステムの構築
河合 俊典さん(エムスリー株式会社)
- 医者向けの論文のレコメンドシステムの構築
- 製薬企業が医療情報を勉強するためにも使われる
- 要件
- 基本的にはML業界と同じ
- 分野の重なりの大小が激しい
- 糖尿病などの合併症の範囲絵が広い病気
- 希少疾患
- ワードの揺れ(MRという略語が複数の意味を持つ)
- 年間数万件です最新の論文に対応したい(コールドスタート問題)
- ある程度ユーザ行動に応じて動的に動く
- 医療関係者に納得感のある評価
- 手法
- 医師と論文の名寄せ
- 決定木でユニークIDを振る
- お医者さんの興味ワードの生成
- Label Propagation
- Elasticsearchに投げる
- レコメンドエンジンの作成
- content-based citation recommendation
- コールドスタート問題に対処すべく、ユーザが興味のある単語の情報だけではなく、citation情報や過去に医師が書いた論文の情報も複合的に利用して推薦する
- 医師と論文の名寄せ
- 評価
- 最初はM3の編集部にアドバイスを貰いつつモデル化
- 実データを用いて、CTR、MRR、MAPを算出
- データ数、カテゴリ数に課題はある
LT3 - 社内の XX に詳しい人を知りたい
押条 祐哉さん(ストックマーク株式会社)
- Anews
- ビジネスニュースの配信
- チームの人が読んだ記事も読める
- 記事にコメントも付けられる
- チームの共通知のアップデート
- Anewsの刷新にあたり、特定のキーワードやニュースで検索した時に詳しい社内人物1人を推薦するシステムの構築
- 「Who knows what?」
- 記事データとユーザ行動ログが使える
- 推薦アルゴリズム
- 課題
- ユーザベクトルの定義方法
- コールドスタート問題
- 他にも取れるデータで有用なものがあるかも
- 評価指標
- A/Bテストやオンラインテストなど検討中
- ユーザベクトルの定義方法
LT4 - ESG評価を支える自然言語処理基盤の構築
久保 隆宏さん(TIS株式会社)
- ESG投資、持続可能な発展の可能性を考慮
- 7つの手法があるが、何らかの「ESG評価」をしている
- さまざまな評価機関が存在
- 各機関の評価に相関がなさすぎる
- 人力での評価には限界がある→NLPの利用
- 支援レベル
- 課題
- データ収集
- 営業
- プロトタイプ開発
- 評価
- 自然言語処理
- 所感
- 「見た目ではESG評価はレポートの見た目では変わらない」
- 書きっぷりを頑張ってほしい
- その辺に転がっているデータで価値が出ることはほぼ無い
- 地道なアノテーションが大切
パネルディスカッション
Slidoで寄せられた質問に答える形式でした。具体的な議論内容については、twitterのハッシュタグ #mlpp #mlloft である程度確認できるかと思います。