u++の備忘録

【論文メモ】経済記事からの不祥事報道検知

論文メモ自然言語処理

経済記事からの不祥事報道検知

Jason Bennett, 野原崇史 (三井住友アセットマネジメント), Fei Cheng (NII), ○石田隆 (三井住友アセットマネジメント), 宮尾祐介 (NII)
言語処理学会第24回年次大会(NLP2018)
http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/B6-3.pdf

どんなもの？

経済記事を「不祥事」か否かで二値分類するための実務的な End-to-End のシステムを設計・構築
- 分類システムを実運用に向けてデザインする上では精度は重要な指標の一つに過ぎず、解釈性、頑健性等に関する課題および解決策に関する研究を行なった
- 時間の経過とともに正のクラスの定義が変化する実環境の難しさにも対応するため、再学習の仕組みも取り入れた

実務的背景

資産運用実務において近年、非財務情報として環境(Environment)・社会(Social)・企業統治(Governance)への取組姿勢を評価に取り入れる「ESG投資」に注目が集まっている
企業の不祥事イベントを早期に認識し、株価・財務内容への影響分析や投資分析を行う重要性が増加している

先行研究と比べてどこがすごい？

経済記事の分類に関する研究はセンチメント分類やイベント検出など様々あるが、不祥事検知については前例がない

技術や手法のキモはどこ？

実務上の目的に向けて、精度の向上だけでなく「解釈性の担保」「頑健性」「再学習の必要性」などの課題に取り組んでいる

解釈性の担保
- ロジスティクス回帰とN-gram
頑健性
- 特定期間のみに対して有効な特徴が多く、固有名詞を除外するなどの汎化性能対策をした
再学習の必要性
- "我々の経済社会では、時間の経過とともに、絶えず新たな種類の不祥事が報道され社会的関心を集めている"
- ある記事に対するシステムの分類結果が誤っているとユーザが判断した場合は、それをユーザインターフェース（UI）から変更し、分類器の学習に再度用いる仕組みを構築

どうやって有効だと検証した？

第5章再学習に関する実験

過去のデータのみを使って学習させた場合、時が経つにつれて適合率や再現率が低下していくと分かった

※ このグラフの凡例が合っているか分からない。学習期間の月数が少ないほど精度が低いのは何故だ。。。

f:id:upura:20180505161915p:plain

議論はある？

半教師あり学習の手法も検討してみたい

次に読むべき論文は？

NULL