u++の備忘録

【論文メモ】業種別企業業績要因を含む新聞記事の抽出

論文名

丸澤英将(東京大学), 和泉潔(東京大学), 坂地泰紀(東京大学), 田村浩道(野村證券株式会社): 業種別企業業績要因を含む新聞記事の抽出, 第19回 人工知能学会 金融情報学研究会(SIG-FIN), 2017.

どんなもの?

市場分析の専門家である証券アナリストが企業業績を予想するアナリストレポートは,重要な投資判断材料だが,発行時期は銘柄ごとにまちまち
→の間欠性を補うシステムとして,日々発行される新聞の記事などのデータから企業業績を変動させる要因になりうる経済イベント(業績要因)を即時に獲得してデータベースに蓄積し,顧客からの問い合わせに自然言語で回答する対話型投資支援システムが考えられる.
→(具体的には)新聞など別の媒体で報じられている経済イベントから,アナリストの行う企業業績予想を推測
→(具体的には)アナリストレポート中でどのような経済イベントが注目され,企業業績の予想の根拠として用いられているかという因果関係の特徴を学習

先行研究と比べてどこがすごい?

特定の文の特徴を学習して,別の文章から類似の文を獲得する手法として,単に文全体に含まれる単語の組で一致度を測る bag-of-wordsに法よるものがあるが,その手法では背後にある因果関係を把握できていないという問題がある

技術や手法のキモはどこ?

  • アナリストの予想を示す文の部分と,その予想の根拠を示す文の部分を分離して抽出
    • 原油安及び探鉱費の増加を主因に,YY.M 期の純利益予想を下方修正した」の「(を)主因に」を「根拠部手がかり表現」として、その前後を取り出す。
  • 根拠部手がかり表現の特定方法
    • 形態素解析
    • tf-idf値を用いてベクトル化して特徴量とする
    • Word2vecを用いて文脈上の類似度の高い名詞まで抽出できるよう拡張

どうやって有効だと検証した?

  • 日経新聞の 2014年の記事(スポーツ記事など,経済記事以外も含む)119,767件を用いた.
  • Word2Vec法のモデルには,ロイター社の2003年から2013年の経済記事の文章をコーパスとし,200次元で分散表現を生成するよう学習したものを用いた
  • 精度の算出に当たっては,重要記事抽出対象の時期のアナリストレポート中で,5つ以上の銘柄においてアナリストによる業績予想の根拠とされていた概念を正解とし,人手で評価した.
  • (根拠部の初期の共通頻出表現には,ポジティブ・ネガティブの判断を含む表現を用いるようにした)

議論はある?

  • 専門家の監修による正解データの作成とそれを用いた結果の再現率,F 値などによるさらなる定量評価は,今後の課題とする.

次に読むべき論文は?

提案手法の参考になっている論文
酒井浩之, 柴田宏樹, 平松賢士, 坂地泰紀 : アナリストレポートからのアナリスト予想根拠情報の抽出,人工知能学会第 17 回金融情報学研究会, pp. 25–30 (2016)