u++の備忘録

日本語BERTを用いた会社名の埋め込み

以前に参加したNishika「財務・非財務情報を活用した株主価値予測」コンペ*1で検討していたタイトルの技術について、別コンペで使う可能性があったので改めてコードを整理していました。結局使わなかったですが、せっかくまとめたのでブログ記事として供養しておきます。

www.kaggle.com

手法

会社名などラベル名に意味がある場合、何らかの形でそのラベル名のベクトル表現を獲得し特徴量として追加することは性能向上に繋がる可能性があります。今回はラベル名が日本語の会社名なので、日本語で事前学習されたBERTを用いて埋め込み表現を獲得しました。

結果

処理の詳細はソースコードをご確認ください。結果として、例えば「三井住友建設株式会社」のベクトル表現に類似している企業名として「住友不動産株式会社」「住友商事株式会社」「第一建設工業株式会社」などの文字列が似ているラベル名が挙がっています。なお実験のためのデータセットとしては、冒頭述べたコンペでも使われた「CoARiJ: Corpus of Annual Reports in Japan」*2を採用しています。

f:id:upura:20201101060241p:plain