u++の備忘録

Pythonで活性化関数Swishを書く

Google Brainが10月16日に公開した、深層のニューラルネットワークの画像分類・機械翻訳タスクでReLUを上回る性能を示したという活性化関数「Swish」をPythonで描画。論文のFigure 1に当たる図。

f:id:upura:20171023105753p:plain

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
    return 1.0 / (1.0 + np.exp(-x))

def swish(x):
    return x * sigmoid(x)

n = 1000
x = np.linspace(-5, 3, n)
y = swish(x)

plt.title("Swish")
plt.plot(x, y, "r")
plt.show()

【遊戯王デュエルリンクス】「苦渋の決断」で強化された磁石の戦士デッキ

遊戯王デュエリストフェスティヴァル2017」(10月22日開催@流通センター)の対戦ゾーンで利用したデッキレシピです。

f:id:upura:20171022132446p:plain

サーチと墓地肥やしを両立できる「苦渋の決断」が新パック「サーヴァントオブキングス」で登場し、大幅に強化されたデッキです。

【遊戯王デュエルリンクス】「遊戯王デュエリストフェスティバル」に行ってきました

遊戯王デュエリストフェスティヴァル2017」(10月22日開催@流通センター)のデュエルリンクス枠で当選したので、参加してきました。

遊☆戯☆王 デュエリストフェスティバル 2017 | イベント・大会 | 遊戯王OCG デュエルモンスターズ

f:id:upura:20171022131304j:plain
f:id:upura:20171022131256j:plain

対戦ゾーンでひたすら対戦していました。同世代の男性が多く、初期のOCGの話で盛り上がるなど、楽しい空間でした。

以下の磁石の戦士デッキを使いました。「磁石の戦士マグネット・バルキリオン」が出た時にリアクションしてもらえて嬉しかったです。

f:id:upura:20171022131807p:plain

upura.hatenablog.com

いろいろな景品ももらいました。

f:id:upura:20171022131450j:plain

また機会があれば行きたいですね。

f:id:upura:20171022131405j:plain

【論文メモ】決算短信から抽出した業績要因文の事業セグメントに基づく分類と業績文の抽出

論文名

村野壮人(成蹊大学), 酒井浩之(成蹊大学), 坂地泰紀(東京大学), 江口潤一(大和証券投資信託委託株式会社): 決算短信から抽出した業績要因文の事業セグメントに基づく分類と業績文の抽出, 第19回人工知能学会金融情報学研究会(SIG-FIN),2017.
http://sigfin.org/019-13/

どんなもの?

企業の決算短信から抽出した業績要因文を企業ごとに定められている事業セグメントに基づく自動分類をする手法と、決算短信から業績文を抽出する手法を提案する。

先行研究と比べてどこがすごい?

抽出された業績要因がどの事業セグメントに属するかを分類し,さらに,事業セグメントごと業績によって重要度を付与できれば,投資判断を行ううえで重要な情報源となる

技術や手法のキモはどこ?

業績要因文の事業セグメントに基づく分類

K近傍法による事業セグメント分類

業績文の自動抽出

深層学習

どうやって有効だと検証した?

事業セグメント名を収集した上場企業の中から選んだ 11 社の企業の決算短信を利用

議論はある?

  • 企業ごとの決算短信の書き方に大きく左右されてしまう
    • 複数の分類法を企業ごとに使い分けることが良い
    • 複数手法の和集合を取ることで精度・再現率の向上をしたい
      • 企業キーワードのスコアを用いた学習データの絞り込みによる誤分類の除去
      • k近傍法と業績文利用

次に読むべき論文は?

酒井浩之,西沢裕子,松並祥吾,坂地泰紀, “企業の決算短信PDFからの業績要因の抽出”, 人工知能学会論文誌, vol.30, no.1, pp.172-182, 2015.

【論文メモ】アナリストレポートからのアナリスト予想根拠情報の抽出と極性付与

論文名

アナリストレポートからのアナリスト予想根拠情報の抽出と極性付与,第19回人工知能学会金融情報学研究会(SIG-FIN),2017.
http://sigfin.org/019-14/

どんなもの?

深層学習を用いてアナリストレポートからアナリスト予想根拠情報の抽出と,アナリストレポートに対して極性を付与する手法を提案する

先行研究と比べてどこがすごい?

  • 酒井らの手法におけるアナリスト予想根拠文は比較的高い精度(75%程度)を達成しているも のの,再現率は低い( 60%程度).
    • ブートストラップ的に手がかり表現を獲得する過程で,手がかり表現として不適切な表現を削除する必要があり,適切な手がかり表現であるにもかかわらず,獲得できない場合がある.
    • 酒井浩之, 柴田宏樹, 平松賢士, 坂地泰紀, “アナリス トレポートからのアナリスト予想根拠情報の抽出”, 第 17 回金融情報学研究会, pp.25-30, 2016
  • 本研究では,深層学習を使用してアナリストレポートからアナリスト予想根拠文を抽出し, 精度を落とさずに酒井らの手法よりも高い再現率を達成する手法を提案する.
    • 酒井らの手法による抽出結果をさらに絞り込むことで,より高い精度のアナリスト予想根拠文の集合を作成
    • 作成された高精度のアナリスト予想根拠文を深層学習の学習データとすることで学習データを自動生成し,その自動生成された学習データを使用して深層学習を行い,アナリスト予想根拠文を抽出する.

技術や手法のキモはどこ?

深層学習によるアナリスト予想根拠文の絞り込みと極性付与

どうやって有効だと検証した?

アナリスト予想根拠文抽出の評価

  • 評価のための正解データは
    • 深層学習の学習データとして使用していないアナリストレポート集合から12個を無作為に選択し,その中の468文から人手でアナリスト予想根拠文を抽出して作成
    • 本手法にて抽出したアナリスト予想根拠文が正解データの文と一致すれば正解とし,精度,再現率,F値を算出

f:id:upura:20171021134729p:plain

アナリストレポートへの極性付与の評価

  • 学習データによる深層学習を用いて,評価用のレーティングが変動しなかった155個のアナリストレポートに対して極性を付与
    • 正解データを評価用と同じアナリストレポートを人手にて極性を付与することで作成し,本手法の精度を求めた
  • 学習手法としてSVMを使用した場合を比較手法とした.SVM の場合も,学習データ,および,素性は深層学習と同じである.

f:id:upura:20171021134911p:plain

議論はある?

  • 深層学習と手がかり表現と文末手がかり表現を使用する手法を組み合わせて和集合をとった結果が,積集合をとった結果や深層学習の結果より向上している.
    • 手がかり表現と文末手がかり表現を使用する手法で抽出できなかったアナリスト予想根拠文は深層学習で抽出できており,深層学習で抽出できなかったアナリスト予想根拠文は手がかり表現と文末手がかり表現を使用する手法で抽出できていることを示している.
  • 深層学習のみを使用した手法において,精度が高く,再現率が低い
    • 負例に正例に分類されるべき文が含まれていたからであると考えられる.
    • 手がかり表現,共通頻出表現,文末手がかり表現を含んでいないとしても,アナリスト予想根拠文である可能性があり,負例の抽出条件を再考する必要がある.

次に読むべき論文は?

酒井浩之, 柴田宏樹, 平松賢士, 坂地泰紀 : アナリストレポートからのアナリスト予想根拠情報の抽出,人工知能学会第 17 回金融情報学研究会, pp. 25–30 (2016)

【論文メモ】日銀総裁会見の表情解析に基づく感情値の計測と金融政策変更との関係

論文名

水門善之(野村證券株式会社), 勇大地(マイクロソフトコーポレーション), 日銀総裁会見の表情解析に基づく感情値の計測と金融政策変更との関係, 第19回人工知能学会金融情報学研究会(SIG-FIN), 2017.
http://sigfin.org/019-22/

jp.reuters.com

どんなもの?

深層学習等を用いた表情認識アルゴリズムを用いて,会見における総裁の表情を解析し,「喜び」・「怒り」・「悲しみ」・「驚き」等の感情値の変化を計測した.その結果,大きな金融政策変更を行う直前の回の会見では,「怒り」や「嫌悪」の値が高くなる一方,金融政策変更後の会見では,「悲しみ」の数値が低下する傾向が確認された.このことは,表情解析に基づく情報が,金融政策の先行きを考える上で有用な材料となり得ることを示唆していると考える

先行研究と比べてどこがすごい?

2014年度以降,日銀は決定会合後の記者会見の様子をメディアを通じて動画配信することを解禁した.これにより,総裁の会見内容について,テキスト情報だけではなく,表情やトーンも含めた解釈が可能になった.情報理論的な定義における情報量でみた場合,文章よりも動画・音声の方が,情報量は遥かに大きい.本研究では,これらの点に注目し,会見動画の解析を行うことで,テキストデータに含まれない情報の抽出を試みた.具体的には,深層学習等を用いた表情認識アルゴリズムを用いることで,会見における総裁の表情を解析し,「喜び」・「怒り」・「悲しみ」・「驚き」等の感情の変化を指数化した

技術や手法のキモはどこ?

MicrosoftのCognitive Serviceにおける表情認識アルゴリズムを感情値の計測に用いた

どうやって有効だと検証した?

「喜びの割合」を定義し可視化。定性的に判断。

議論はある?

記者会見における総裁の表情の変化は,その発言の内容によるところも大きい点には注意が必要だ.

次に読むべき論文は?

Microsoftにて深層畳み込みニューラルネットワーク(DCNN)をベースとした表情認識アルゴリズムの研究が進められている
EmadBarsoum, ChaZhang, Cristian Canton Ferrer and Zhengyou Zhang: Training deep networks for facial expression recognition with crowd-sourced label distribution, ICMI 2016 Proceedings of the 18th ACM International Conferenceon Multimodal Interaction, Pages 279-283

【論文メモ】機械学習による中小企業の信用スコアリングモデルの構築

論文名

澤木太郎(株式会社リコー), 笠原亮介(株式会社リコー), 田中拓哉(株式会社リコー): 機械学習による中小企業の信用スコアリングモデルの構築,第19回人工知能学会金融情報学研究会(SIG-FIN), 2017.
http://sigfin.org/019-04/

どんなもの?

  • 企業のデフォルトリスクを推定する信用スコアリングモデルは融資を行う際の与信業務に極めて有用
  • 特に近年は金利が低下している影響で、ますます与信コストを下げることが求められている
  • 本研究では、国内の中小企業データを用いて様々な機械学習手法によりスコアリングモデルを構築し、どのような手法が高い精度を出せるのかを調べる

先行研究と比べてどこがすごい?

  • 従来、信用スコアリングモデルはLogistic Regression(LR)のような統計的な手法が用いられてきた
    • 金融機関は実務の信用スコアリングモデルを公表しないため、具体的にどういった手法が多く使われているかは不明であるが、Logistic Regression、もしくはLogistic RegressionとDecision Treeを組み合わせたハイブリッドモデルが多いと考えられる
  • 一方で近年はディープラーニングを中心として、様々な機械学習の手法が提案されており、著しく精度が向上している。それにともなって、機械学習手法を使ったスコアリングモデル構築に関する報告が増えている
    • これらの報告の多くは、データ件数が1000件前後の小規模なデータセットによって検証が行われているが、一般的に機械学習で高い精度を出すためには、多数のデータが必要
    • ほとんどが個人の信用情報をもとに構築されたコンシューマ向けのスコアリングモデルであり、法人向けのスコアリングモデルに関する検証はあまり進んでいないのが現状
  • 本研究では、国内の中小企業データを用いて様々な機械学習手法によりスコアリングモデルを構築し、どのような手法が高い精度を出せるのかを調べた

技術や手法のキモはどこ?

本研究で検証を行った機械学習手法は以下の3つである。

  • Gradient Boosting Decision Tree(GBDT)
  • Random Forest(RF)
  • Neural Network(NN)

(ベンチマークとしてLogistic Regressionによるモデル構築)

  • 国内の法人企業約10万件のデータ
    • リコーリース株式会社から提供を受けた実務データ
      • 同社は小口かつ大量のリースが特徴であり、データの構成は中小企業が中心になっている
    • 特徴量は売上高などの数値変数と業種などのカテゴリカル変数を含んでおり、合計119種類
    • 各法人に対して必ずしもすべての特徴量が取得できるわけではないため欠損値を含んでいる

どうやって有効だと検証した?

各手法について、精度を検証

議論はある?

ハイパーパラメータの調整で精度が向上する可能性がある

次に読むべき論文は?

機械学習手法を使ったスコアリングモデル構築に関する報告
S. Lessmanna, B. Baesensb, H. Seowd, and L. C. Thomas: Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research, European Journal of Operational Research, vol. 247, No.1, pp. 124-136, (2015)