u++の備忘録

【論文メモ】業績変動を考慮した決算短信からの重要文抽出

論文名

磯沼大 et al.: 業績変動を考慮した決算短信からの重要文抽出, 情報処理学会研究報告, Vol. 2016-NL-227, No. 6, 2016.07.

情報学広場:情報処理学会電子図書館

どんなもの?

 概要から抜粋

本研究では過去の決算短信と決算記事から業績変動と短信文の掲載パターンを学習し,記事に掲載されるべき文を決算記事から抽出する手法を提案する.提案手法は2パートに分かれ,第1パートでは各事業セグメントの業績変動と,記事掲載パターンを学習することにより,各事業セグメントの重要度を判定する.第2パートでは,判定した各事業セグメントの重要度と極性判定を用いることで各文の重要度を評価し,抽出を行う.

先行研究と比べてどこがすごい?

先行研究[3]は「他の文に関連する文は重要である」という前提に基づいている。これは一般的な新聞記事要約や複数文書要約など各文が依存しあっている文書の要約では効果的だが、決算短信のように各文が比較的独立である文書の要約には適さない。

-> 第1パートで対応(重要な文を推定する別のアプローチ)

単語対の数が費用に多いため、それらの網羅的な取得や極性推定を行う一般的な手法が存在しないことから、非負値行列因子分析(Non-Negative Matrix Factorization; NMF)[1] による未出現単語対の極性値推定を提案し、多様な単語対の極性値取得を行っている。

-> 第2パートで対応

技術や手法のキモはどこ?

決算短信からの重要文抽出という課題を解決するべく、既存手法を組み合わせている。

どうやって有効だと検証した?

データセット

うち

検証結果 - 重要セグメントが判定できているか - 重要文が抽出できているか - 提案手法の各ステップごとにF値を算出

議論はある?

重要セグメントの判定において、適合率0.92に対し、再現率が0.65と低調だった。原因を分析すると、資産売却や減損処理による特別利益・特別損失が発生した場合が原因だった。この場合には、決算記事には取り上げられているが、セグメント売上・利益には計上されない業績変動が小さいものが多数を占めていた。特別利益や特別損失が発生したセグメントについては別の手法が必要ということが示唆された。

重要文抽出後の文章要約にも取り組む必要がある。

次に読むべき論文は?

疑問

学習データの作成において事業セグメント名とその略称が決算記事内に含まれているかを、集合管の類似度を示すdice係数[14]を用いて判定している。そこでの閾値を0.7としているが、果たしてこれは適切なのか。

-> dice係数[14]に関する論文を読む