ディープラーニングで大相撲千秋楽の勝敗を予想してみる

　11月場所で鶴竜が千秋楽前に7場所ぶりの優勝を決めました。
　9月場所の千秋楽前にもこんな記事を書いたのですが、またしても相撲絡みの記事を書きたくなったので書きます。

　今回はアホみたく流行っている「ディープラーニング」を使って、大相撲千秋楽の勝敗を予想してみようという記事です。といっても4層しかないのですが「ディープラーニング」の方が引きが良さそうなのでタイトルに盛り込んでしまいました。

　以下が、今回の目的です。「千秋楽の勝敗は、その場所の14日目までの成績（調子）に依存する部分がある」という仮定を置きました。この仮定のもと、14日目までの成績を入力として、千秋楽の勝敗を予想する分類器を作成します。

f:id:upura:20161126225305p:plain

　下図が、今回作成したディープニューラルネット（DNN）です。

f:id:upura:20161126225842p:plain

　このDNNに訓練データとして過去の幕内の取り組み結果を与えます。データ構造は以下の通りです。

f:id:upura:20161126230137p:plain

　過去の取り組みデータは「大相撲星取表」というサイトから収集しました。データ収集には、pythonのpandasの機能を利用しました。
upura.hatenablog.com

　今回の場合、平成元年～平成28年7月場所までのデータを訓練データとしてDNNに与えました。実装にはRの「mxnet」というライブラリを使っています。以下のサイトを参考にしました。
tjo.hatenablog.com

# Data Import
df <- read.csv("C:/data.csv", header = F)
newdata <- read.csv("C:/newdata.csv", header = F)

library(mxnet)

# Training Data
train <- data.matrix(df)
train.x <- train[,-1]
train.y <- as.numeric(train[,1])

# Test Data
test <- data.matrix(newdata[,-1])

# DNN
data <- mx.symbol.Variable("data")
fc1 <- mx.symbol.FullyConnected(data, name="fc1", num_hidden=28)
act1 <- mx.symbol.Activation(fc1, name="tanh1", act_type="tanh")
fc2 <- mx.symbol.FullyConnected(act1, name="fc2", num_hidden=14)
act2 <- mx.symbol.Activation(fc2, name="tanh2", act_type="tanh")
fc3 <- mx.symbol.FullyConnected(act2, name="fc3", num_hidden=10)
act3 <- mx.symbol.Activation(fc3, name="tanh3", act_type="tanh")
fc4 <- mx.symbol.FullyConnected(act3, name="fc4", num_hidden=2)
softmax <- mx.symbol.SoftmaxOutput(fc4, name="softmax")

# Execution
devices <- mx.cpu()
mx.set.seed(71)
model <- mx.model.FeedForward.create(softmax, X=train.x, y=train.y, ctx=devices, num.round=4000, array.batch.size=100, learning.rate=0.03, momentum=0.99,  eval.metric=mx.metric.accuracy, initializer=mx.init.uniform(0.5), array.layout = "rowmajor", epoch.end.callback=mx.callback.log.train.metric(100))

# Result
preds <- predict(model, test, array.layout = "rowmajor")
pred.label <- max.col(t(preds)) - 1
pred.label