u++の備忘録

企業名認識のデータセット「JCLdic」で学習したEncoder-Decoderモデル

TISが公開している企業名認識のためのデータセット「JCLdic」*1を用いて、Encoder-Decoderモデルを学習させてみました。

結果と考察

学習・検証に利用していないデータに対して適応した結果を下図に示します。統計的な出現頻度に基づくので当然な気がしますが①「ヤ」→「ャ」に修正②「有限会社」を明示しない場合は「株式会社」を付与ーーしています。

f:id:upura:20200505232127p:plain

Encoder-Decoderモデルを用いた正規化は、クックパッドのブログ*2を読んで以来、試してみたいと考えていました。

今回は簡単のため「JCLdic」をそのまま活用しましたが「株式会社」を前に付けるか後に付けるかなどは、統計的に処理するのは不可能なタスクなように感じます。学習前のtgt側のデータから「株式会社」「有限会社」などを削除しておくことで、会社名部分のみの正規化というタスクに変換する方が理にかなっていそうです。

実装

実装には「OpenNMT-py」*3を利用しました。学習に利用したNotebookなどは、GitHub*4で公開しています。