u++の備忘録

【論文メモ】アナリストレポートからのアナリスト予想根拠情報の抽出と極性付与

論文名

アナリストレポートからのアナリスト予想根拠情報の抽出と極性付与,第19回人工知能学会金融情報学研究会(SIG-FIN),2017.
http://sigfin.org/019-14/

どんなもの?

深層学習を用いてアナリストレポートからアナリスト予想根拠情報の抽出と,アナリストレポートに対して極性を付与する手法を提案する

先行研究と比べてどこがすごい?

  • 酒井らの手法におけるアナリスト予想根拠文は比較的高い精度(75%程度)を達成しているも のの,再現率は低い( 60%程度).
    • ブートストラップ的に手がかり表現を獲得する過程で,手がかり表現として不適切な表現を削除する必要があり,適切な手がかり表現であるにもかかわらず,獲得できない場合がある.
    • 酒井浩之, 柴田宏樹, 平松賢士, 坂地泰紀, “アナリス トレポートからのアナリスト予想根拠情報の抽出”, 第 17 回金融情報学研究会, pp.25-30, 2016
  • 本研究では,深層学習を使用してアナリストレポートからアナリスト予想根拠文を抽出し, 精度を落とさずに酒井らの手法よりも高い再現率を達成する手法を提案する.
    • 酒井らの手法による抽出結果をさらに絞り込むことで,より高い精度のアナリスト予想根拠文の集合を作成
    • 作成された高精度のアナリスト予想根拠文を深層学習の学習データとすることで学習データを自動生成し,その自動生成された学習データを使用して深層学習を行い,アナリスト予想根拠文を抽出する.

技術や手法のキモはどこ?

深層学習によるアナリスト予想根拠文の絞り込みと極性付与

どうやって有効だと検証した?

アナリスト予想根拠文抽出の評価

  • 評価のための正解データは
    • 深層学習の学習データとして使用していないアナリストレポート集合から12個を無作為に選択し,その中の468文から人手でアナリスト予想根拠文を抽出して作成
    • 本手法にて抽出したアナリスト予想根拠文が正解データの文と一致すれば正解とし,精度,再現率,F値を算出

f:id:upura:20171021134729p:plain

アナリストレポートへの極性付与の評価

  • 学習データによる深層学習を用いて,評価用のレーティングが変動しなかった155個のアナリストレポートに対して極性を付与
    • 正解データを評価用と同じアナリストレポートを人手にて極性を付与することで作成し,本手法の精度を求めた
  • 学習手法としてSVMを使用した場合を比較手法とした.SVM の場合も,学習データ,および,素性は深層学習と同じである.

f:id:upura:20171021134911p:plain

議論はある?

  • 深層学習と手がかり表現と文末手がかり表現を使用する手法を組み合わせて和集合をとった結果が,積集合をとった結果や深層学習の結果より向上している.
    • 手がかり表現と文末手がかり表現を使用する手法で抽出できなかったアナリスト予想根拠文は深層学習で抽出できており,深層学習で抽出できなかったアナリスト予想根拠文は手がかり表現と文末手がかり表現を使用する手法で抽出できていることを示している.
  • 深層学習のみを使用した手法において,精度が高く,再現率が低い
    • 負例に正例に分類されるべき文が含まれていたからであると考えられる.
    • 手がかり表現,共通頻出表現,文末手がかり表現を含んでいないとしても,アナリスト予想根拠文である可能性があり,負例の抽出条件を再考する必要がある.

次に読むべき論文は?

酒井浩之, 柴田宏樹, 平松賢士, 坂地泰紀 : アナリストレポートからのアナリスト予想根拠情報の抽出,人工知能学会第 17 回金融情報学研究会, pp. 25–30 (2016)