u++の備忘録

【論文メモ】決算短信からの事業セグメント情報抽出

決算短信からの事業セグメント情報抽出

どんなもの?

決算短信特有の言語的な特徴を考慮した「事業セグメント情報抽出手法」を提案し、その有用性について実データを用いて評価

  • 決算情報は一般的に事業セグメント(企業の構成単位)ごとに記載されている
  • 「事業セグメント名」及び「事業セグメントの内容」の抽出は重要
    • 「事業セグメント別の売上情報」を組み合わせることで各企業の経営状態が可視化できる可能性がある

f:id:upura:20180505164157p:plain

先行研究と比べてどこがすごい?

  • 「事業セグメント名」及び「事業セグメントの内容」の情報は投資判断の上で重要であるが,「事業セグメント名」及び「事業セグメント内容」の決算短信からの自動抽出手法については確立されていない
  • 現状,決算短信特有の言語的な特徴に関する知見はあまり共有されていない

技術や手法のキモはどこ?

事業セグメント名抽出

  • 事業セグメント情報段落の各単語をBidirectional Bag of Words (BBOW)でベクトル化
    • 各単語の前10語、後10語の頻度でベクトル v_f, v_bを作成し、 [v_f, v_b]を単語ベクトルとして与える
  • 事業セグメント名であれば正、そうでなければ負として予測モデルを作成(ロジスティック回帰)
  • 決算短信特有の言語的な特徴に基づいた手法である
    • 各企業は似た言い回しでセグメント情報を記述する
    • 各単語について単語の前に出現する単語の頻度分布と単語の後に出現する単語の頻度分布は異なる

事業セグメント説明文抽出

  • 訓練データセット内の事業セグメントを含む文についてセグメント説明を含む文を正例,含まない文を負例としてラベルを与え,訓練データセット内の文を用いて予測モデル (ロジスティック回帰モデル) を学習
    • 文の素性にはbag of words

事業セグメント内容抽出

各事業セグメントに関する説明を記載している文は以下に分類できる

分類 説明
単一型 文中に単一の事業セグメントの情報のみ含むもの 450
Forward型 一文中に複数の事業セグメントの説明があり,「セグメント名」,「セグメント説明」の順でセグメント情報が記載されるもの 90
Backword型 一文中に複数の事業セグメントの説明があり,「セグメント説明」,「セグメント名」の順でセグメント情報が記載されるもの 27

数=検証データ320文書中のセグメント説明を含む分580文のうちの数

この性質を踏まえて、以下のように抽出する

  • 抽出済の事業セグメント名を用いて単一型かを判断し、その場合はその文中の説明を「事業セグメント内容」とする
  • 単一型でない場合は「Forward型」と「Backward型」かを分類する予測モデル(ロジスティック回帰)
    • 文の素性にはbag of words

どうやって有効だと検証した?

  • 「セグメント情報」を決算短信に記載している320企業の決算短信を対象に実験
  • 事業セグメント名抽出では、BBOWの有用性が示唆された
  • 事業セグメント説明文抽出と事業セグメント内容抽出でも、交叉検証のF値が0.9弱と、まずまずの性能を発揮した

f:id:upura:20180505171905p:plain

  • 最後に、一連の処理を通して事業セグメント説明文抽出を実施した場合には、Precisionが35/48=0.73、Recallが35/65=0.54という結果だった

議論はある?

一連の処理を通した事業セグメント説明文抽出の精度を改善したい

次に読むべき論文は?

NULL