u++の備忘録

【論文メモ】機械学習による中小企業の信用スコアリングモデルの構築

論文名

澤木太郎(株式会社リコー), 笠原亮介(株式会社リコー), 田中拓哉(株式会社リコー): 機械学習による中小企業の信用スコアリングモデルの構築,第19回人工知能学会金融情報学研究会(SIG-FIN), 2017.
http://sigfin.org/019-04/

どんなもの?

  • 企業のデフォルトリスクを推定する信用スコアリングモデルは融資を行う際の与信業務に極めて有用
  • 特に近年は金利が低下している影響で、ますます与信コストを下げることが求められている
  • 本研究では、国内の中小企業データを用いて様々な機械学習手法によりスコアリングモデルを構築し、どのような手法が高い精度を出せるのかを調べる

先行研究と比べてどこがすごい?

  • 従来、信用スコアリングモデルはLogistic Regression(LR)のような統計的な手法が用いられてきた
    • 金融機関は実務の信用スコアリングモデルを公表しないため、具体的にどういった手法が多く使われているかは不明であるが、Logistic Regression、もしくはLogistic RegressionとDecision Treeを組み合わせたハイブリッドモデルが多いと考えられる
  • 一方で近年はディープラーニングを中心として、様々な機械学習の手法が提案されており、著しく精度が向上している。それにともなって、機械学習手法を使ったスコアリングモデル構築に関する報告が増えている
    • これらの報告の多くは、データ件数が1000件前後の小規模なデータセットによって検証が行われているが、一般的に機械学習で高い精度を出すためには、多数のデータが必要
    • ほとんどが個人の信用情報をもとに構築されたコンシューマ向けのスコアリングモデルであり、法人向けのスコアリングモデルに関する検証はあまり進んでいないのが現状
  • 本研究では、国内の中小企業データを用いて様々な機械学習手法によりスコアリングモデルを構築し、どのような手法が高い精度を出せるのかを調べた

技術や手法のキモはどこ?

本研究で検証を行った機械学習手法は以下の3つである。

  • Gradient Boosting Decision Tree(GBDT)
  • Random Forest(RF)
  • Neural Network(NN)

(ベンチマークとしてLogistic Regressionによるモデル構築)

  • 国内の法人企業約10万件のデータ
    • リコーリース株式会社から提供を受けた実務データ
      • 同社は小口かつ大量のリースが特徴であり、データの構成は中小企業が中心になっている
    • 特徴量は売上高などの数値変数と業種などのカテゴリカル変数を含んでおり、合計119種類
    • 各法人に対して必ずしもすべての特徴量が取得できるわけではないため欠損値を含んでいる

どうやって有効だと検証した?

各手法について、精度を検証

議論はある?

ハイパーパラメータの調整で精度が向上する可能性がある

次に読むべき論文は?

機械学習手法を使ったスコアリングモデル構築に関する報告
S. Lessmanna, B. Baesensb, H. Seowd, and L. C. Thomas: Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research, European Journal of Operational Research, vol. 247, No.1, pp. 124-136, (2015)