決算短信からの事業セグメント情報抽出
- 伊藤友貴 (東大), 小林暁雄, 関根聡 (理研AIP)
- 言語処理学会第24回年次大会(NLP2018)
- http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/D1-3.pdf
- 訂正:http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/D1-3_errata.pdf
どんなもの?
決算短信特有の言語的な特徴を考慮した「事業セグメント情報抽出手法」を提案し、その有用性について実データを用いて評価
- 決算情報は一般的に事業セグメント(企業の構成単位)ごとに記載されている
- 「事業セグメント名」及び「事業セグメントの内容」の抽出は重要
- 「事業セグメント別の売上情報」を組み合わせることで各企業の経営状態が可視化できる可能性がある
先行研究と比べてどこがすごい?
技術や手法のキモはどこ?
事業セグメント名抽出
- 事業セグメント情報段落の各単語をBidirectional Bag of Words (BBOW)でベクトル化
- 各単語の前10語、後10語の頻度でベクトルを作成し、]を単語ベクトルとして与える
- 事業セグメント名であれば正、そうでなければ負として予測モデルを作成(ロジスティック回帰)
- 決算短信特有の言語的な特徴に基づいた手法である
- 各企業は似た言い回しでセグメント情報を記述する
- 各単語について単語の前に出現する単語の頻度分布と単語の後に出現する単語の頻度分布は異なる
事業セグメント説明文抽出
事業セグメント内容抽出
各事業セグメントに関する説明を記載している文は以下に分類できる
分類 | 説明 | 数 |
---|---|---|
単一型 | 文中に単一の事業セグメントの情報のみ含むもの | 450 |
Forward型 | 一文中に複数の事業セグメントの説明があり,「セグメント名」,「セグメント説明」の順でセグメント情報が記載されるもの | 90 |
Backword型 | 一文中に複数の事業セグメントの説明があり,「セグメント説明」,「セグメント名」の順でセグメント情報が記載されるもの | 27 |
数=検証データ320文書中のセグメント説明を含む分580文のうちの数
この性質を踏まえて、以下のように抽出する
- 抽出済の事業セグメント名を用いて単一型かを判断し、その場合はその文中の説明を「事業セグメント内容」とする
- 単一型でない場合は「Forward型」と「Backward型」かを分類する予測モデル(ロジスティック回帰)
- 文の素性にはbag of words
どうやって有効だと検証した?
- 「セグメント情報」を決算短信に記載している320企業の決算短信を対象に実験
- 事業セグメント名抽出では、BBOWの有用性が示唆された
- 事業セグメント説明文抽出と事業セグメント内容抽出でも、交叉検証のF値が0.9弱と、まずまずの性能を発揮した
- 最後に、一連の処理を通して事業セグメント説明文抽出を実施した場合には、Precisionが35/48=0.73、Recallが35/65=0.54という結果だった
議論はある?
一連の処理を通した事業セグメント説明文抽出の精度を改善したい
次に読むべき論文は?
NULL