11 月 20〜23 日開催の自然言語処理の主要な国際会議「AACL-IJCNLP 2022」に参加しました。投稿した論文が本会議にロングペーパーとして採択され、22 日にポスター発表を実施しました。本記事の最後に、論文・コード・発表資料のリンクを掲載しています。
本研究では、コーパス内の通時的な単語の意味変化と、事前学習済み言語モデルの時系列性能劣化の関係性を議論しました。主要な発見の一つは「構築した word2vec や RoBERTa モデルの性能が時系列で大きく悪化する際に、学習用コーパス内の通時的な単語の意味変化が大きくなっている」点です。巨大なモデルが普及する中で(比較的低コストな)学習用コーパスの分析から、再学習した場合の性能を推察できるのは実用上の利点があります。
この研究では、学習用コーパスの期間を変えながら日・英の word2vec モデルや 12 個の日本語 RoBERTa モデルを作成・分析しました。 Amazon SageMaker を駆使して独自の大規模言語モデルを構築している実装面の話は、AWS のイベントで紹介したのでご関心あればご覧ください。
今回の採択論文は、今年 3 月の「言語処理学会第28回年次大会(NLP2022)」での発表内容の発展版です。ポスター発表で頂いたさまざまなコメント・質問に対応する形で、方向性を見定めて内容を充実させることができました。この場を借りて、改めてお礼申し上げます。
ありがたいことに、11 月 30 日開催の「第254回NL・第144回SLP合同研究発表会-情報処理学会」にて「AACL-IJCNLP 2022」の参加報告を実施する機会を頂きました。発表資料も公開予定なので、ご関心あればぜひご覧ください。