「企業分析における自然言語処理を学ぼう」と題した勉強会*1に参加しました。初めての大規模なオンライン勉強会への参加でしたが、画質も全く問題なくChatやtwitterのハッシュタグでコミュニケーションが取れて「これはこれで良いな」という感想を抱きました。発表終了時に、拍手の意で「8888888」のコメントが流れるのは往年のニコニコ動画を思い出しました。
以下、発表メモを共有します。
発表1: 「財務・非財務一体型の企業分析に向けて」by @icoxfog417
- TISで企業分析に取り組む@icoxfog417さんの発表
- 企業分析の中で、非財務情報の活用は進んでいるとは言いづらい
- 理由はザックリと言うと「数値化されていないから」
- 検証可能な数値を作るために、次の2種のアプローチが存在
- 資産評価:企業が実際に持っている資産の評価を精緻化する
- 運用評価:資産がどれだけ売上に繋がるかを評価する
- 資産評価の出発点として、無形資産の内訳の取得分析を実施
- 発表の最後の以下のメッセージが印象的だった
- 適正評価は市場全体の安定に寄与する
- 適正な企業評価には非財務観点の分析が必要不可欠
発表2-1: 「Form 10-Kの外観と分析の下ごしらえ」 by @gepuro
- ユーザベースグループのサービスで、アカウントベースドマーケティング(ABM)に特化した「FORCAS」の@gepuroさんの発表
- FORCASは2019年7月から米国展開
- 米国には「Form 10-K」という企業財務情報の公開レポートが存在しており、業務の中で分析に取り組んでいる
- 「ネ申エクセル」ならぬ「ネ申HTML形式」で、企業によってフォーマットが異なるデータセット
- 正規表現を駆使して分析の下ごしらえのためのデータパースに尽力した
発表2-2: 「企業データ分析における教師データ集めと能動学習」 by @takeshi_osoekawa
- ユーザベースグループのサービスで「SPEEDA」のデータサイエンティストとして働く@takeshi_osoekawaさんの発表
- 機械学習の使い所は「要素と要素を結ぶ」
- 例:企業→業界の紐付け
- X: 600万社くらいの企業概要、y: 業界560 に多クラス分離問題
- 教師データの準備が課題
- 専門知識が必要
- 利用規約の問題で外注の制約も存在
- 紐付けの需要は大きいので、内製化で解決の糸口を探っている
- さまざまな技術を併用して対処
- その一つの能動学習の取り組みについて解説
- データセットとしてはLivedoorニュースコーパスでデモ
- 追加する基準となるスコアで大きくパフォーマンスが異なる
- 実務で能動学習を試した中で得られた知見
- 精度を測るデータセットが別途必要
- 既存の正例に引っ張られるのでRecall上げにくい
発表3: 「私と金融テキストマイニング」 by @Hiroki Sakaji
- 東大の工学系研究科で特任講師を務める@Hiroki Sakajiさん*3の発表
- 金融テキストマイニングに取り組む理由と、研究事例の紹介
- ご自身の経歴に沿いながら、研究概要を分かりやすく端的に解説
- 大学の先生の発表が一番はっちゃけていてギャップに驚いた
- 景気動向を示す根拠表現の抽出と極性付与
- 坂地泰紀, 酒井浩之, 増山繁, 決算短信PDFからの原因・結果表現の抽出, 電子情報通信学会論文誌D, Vol.J98-D, No.5, pp.811-822, 2015.
- Hiroki Sakaji, Satoshi Sekine, Shigeru Masuyama, Extracting Causal Knowledge Using Clue Phrases and Syntactic Patterns, 7th International Conference on Practical Aspects of Knowledge Management (PAKM), pp.111-122, Yokohama, Japan, 2008.
- インパクトのあるプレスリリースの抽出
- 新聞記事からの因果関係の抽出*4
- 決算短信PDFからの因果関係の抽出*5
- 経済因果チェーン*6
- システム*7も公開中
- 接触履歴を用いた地方景況感と業種間構造の分析*8
- テキスト情報も駆使して日本経済の可視化に取り組みたいとのこと