u++の備忘録

「ML@Loft #6」参加メモ

「ML@Loft #6」に参加しました。

ML@Loft は AWS 上で機械学習ワークロードを運用しているデベロッパー/データサイエンティストのための、お悩み相談会です。 第6回は MLPP #4 との共催で、これまでも人気だった "自然言語処理 (NLP) / レコメンド" や "時系列解析" をテーマに、サービス導入する際のポイントや悩みについて議論します。

mlloft6.splashthat.com

machine-learning-pitch.connpass.com

発表

LT1 - 富士通研の時系列データ解析技術

梅田 裕平さん(株式会社富士通研究所

LT2 - ゼロベースからの論文レコメンドシステムの構築

河合 俊典さん(エムスリー株式会社)

  • 医者向けの論文のレコメンドシステムの構築
  • 製薬企業が医療情報を勉強するためにも使われる
  • 要件
    • 基本的にはML業界と同じ
    • 分野の重なりの大小が激しい
      • 糖尿病などの合併症の範囲絵が広い病気
      • 希少疾患
      • ワードの揺れ(MRという略語が複数の意味を持つ)
    • 年間数万件です最新の論文に対応したい(コールドスタート問題)
    • ある程度ユーザ行動に応じて動的に動く
    • 医療関係者に納得感のある評価
  • 手法
    • 医師と論文の名寄せ
      • 決定木でユニークIDを振る
    • お医者さんの興味ワードの生成
      • Label Propagation
    • Elasticsearchに投げる
    • レコメンドエンジンの作成
      • content-based citation recommendation
    • コールドスタート問題に対処すべく、ユーザが興味のある単語の情報だけではなく、citation情報や過去に医師が書いた論文の情報も複合的に利用して推薦する
  • 評価
    • 最初はM3の編集部にアドバイスを貰いつつモデル化
    • 実データを用いて、CTR、MRR、MAPを算出
      • データ数、カテゴリ数に課題はある

LT3 - 社内の XX に詳しい人を知りたい

押条 祐哉さん(ストックマーク株式会社)

  • Anews
    • ビジネスニュースの配信
    • チームの人が読んだ記事も読める
    • 記事にコメントも付けられる
    • チームの共通知のアップデート
  • Anewsの刷新にあたり、特定のキーワードやニュースで検索した時に詳しい社内人物1人を推薦するシステムの構築
    • 「Who knows what?」
  • 記事データとユーザ行動ログが使える
  • 推薦アルゴリズム
    • 協調フィルタリングではなく、コンテンツベーツ
    • ユーザベクトルと記事ベクトルのcos類似度ベースのスコアを利用
    • 記事ベクトルの閲覧数が最も多いクラスタの中心をユーザベクトルにして、dynamodbへ格納
      • 記事のタイトルと最初の名詞数単語の入力として、fastText
  • 課題
    • ユーザベクトルの定義方法
      • コールドスタート問題
      • 他にも取れるデータで有用なものがあるかも
    • 評価指標
      • A/Bテストやオンラインテストなど検討中

LT4 - ESG評価を支える自然言語処理基盤の構築

久保 隆宏さん(TIS株式会社)

  • ESG投資、持続可能な発展の可能性を考慮
  • 7つの手法があるが、何らかの「ESG評価」をしている
    • さまざまな評価機関が存在
    • 各機関の評価に相関がなさすぎる
  • 人力での評価には限界がある→NLPの利用
  • 支援レベル
    • 文書データの収集(CSR報告書・結合報告書)
      • AWS上に仕組みを構築、Lambdaを起動
      • StepFunctionで構築してGlue Crawlerを呼ぶ方式を採用
      • ビューはAthena
      • 作成したデータ5年分を近日公開予定
    • 評価対象となる文・段落の絞り込み
      • プロトタイプ検証予定
    • 自動評価
  • 課題
  • 所感
    • 「見た目ではESG評価はレポートの見た目では変わらない」
    • 書きっぷりを頑張ってほしい
    • その辺に転がっているデータで価値が出ることはほぼ無い
    • 地道なアノテーションが大切

パネルディスカッション

Slidoで寄せられた質問に答える形式でした。具体的な議論内容については、twitterハッシュタグ #mlpp #mlloft である程度確認できるかと思います。

togetter.com