はじめに
手軽に日本語の単語の分散表現を得ようと思ったら、これが良かった。数分でやりたいこと終わった。
— u++ (@upura0) June 15, 2019
===
日本語版text8コーパスを作って分散表現を学習する - Ahogrammer https://t.co/wySQTPhIw9
上のツイートが思いのほか反響が良かったので、簡単ではありますが処理方法をまとめておきます。
手順
- コーパスのダウンロード
- gensimでの読み込み
gensimでの読み込み
あとはGithubのREADME.mdの記載通りに読み込むだけです。sizeは単語ベクトルの大きさを意味します。
from gensim.models import word2vec sentences = word2vec.Text8Corpus('ja.text8') model = word2vec.Word2Vec(sentences, size=200)
model['金融']
array([ 6.60341680e-01, -1.64953339e+00, 3.32918353e-02, -9.80880857e-02, 1.20754802e+00, 1.94470084e+00, 1.62470174e+00, -9.61422026e-01, (中略) 2.30138436e-01, -2.17804956e+00, 6.24406040e-01, -1.56991804e+00], dtype=float32)