u++の備忘録

SemEval-2022 Task 8 参加録:多言語ニュースの話題一致判定

Kaggle Advent Calendar 2022」の 7 日目の記事を担当します。 本記事では、今年参加した国際ワークショップでの機械学習コンペ「SemEval 2022 Task 8: Multilingual News Article Similarity」の概要とチームでの取り組みを紹介します。

SemEval とは

「SemEval (Semantic Evaluation)」は、計算意味解析システムの評価に焦点を当てている自然言語処理の国際ワークショップです。 前身を含めると 20 年以上の歴史があり、今年は「SemEval-2022 (The 16th International Workshop on Semantic Evaluation)」として開催されました。 12 個のコンペが設定された中で、私は特に関心が高かった「Task 8: Multilingual News Article Similarity」に参加しました。

Task 8: Multilingual News Article Similarity

名前の通り、多言語ニュースの類似度を判定するコンペでした。 記事のスタイル・政治的立場・媒体などではなく、ニュースの話題(地理的位置・時間・対象など)がどの程度一致しているかを軸にラベルが付けられています。

具体的には、2 つのニュース記事の見出し・本文などが与えられ、1-4 の範囲で一致度合いを予測します。 学習用(training)には 8 つの同一言語の組み合わせが与えられた一方で、評価用(evaluation)には異なる言語同士を含む組み合わせを扱う点が特徴的でした。

Nikkei at SemEval-2022 Task 8: Exploring BERT-based Bi-Encoder Approach for Pairwise Multilingual News Article Similarity - ACL Anthology Table 1 から引用

取り組み紹介

文や文書の組み合わせを扱うタスクでは、主に下図に示す 2 つのアプローチがあります。 Cross-Encoder は 2 つのテキストを 1 つのエンコーダーに入力する方法で、Bi-Encoder はそれぞれの入力を独立してエンコードする方法です。 今回チームでの実験では後者が良い結果につながり、最終的に 12 位という結果になりました。 取り組んだ内容は、論文の体裁にまとめて発表しました。 論文やソースコード、発表で用いた資料は、記事末尾にリンク集としてまとめています。

Nikkei at SemEval-2022 Task 8: Exploring BERT-based Bi-Encoder Approach for Pairwise Multilingual News Article Similarity - ACL Anthology Figure 1 から引用

論文では具体的に、以下の 5 つの疑問に対する実験結果を報告しました。 1 点目については、既に説明した通り今回の実験では Bi-Encoder がうまく機能しました。 残りの点について、要点を掻い摘んで紹介します。

  1. Cross-Encoder と Bi-Encoder の違い?
  2. どの事前学習モデルが有効か?
  3. どのようなプーリング方法が適切か?
  4. 他言語を英語に翻訳するのは有効か?
  5. データ分割や最大長の影響はあるのか?

Nikkei at SemEval-2022 Task 8: Exploring BERT-based Bi-Encoder Approach for Pairwise Multilingual News Article Similarity - ACL Anthology Table 2 から引用

2 点目の事前学習モデルについては、自然言語処理ライブラリ「Transformers」で利用可能な多言語モデルから以下の 3 つを比較しました。いずれもある程度の性能が確認できています(実験 id:1-3)。

  • bert-base-multilingual-uncased
  • bert-base-multilingual-cased
  • xlm-roberta-base

3 点目のプーリング手法については、以下の 4 つを比較しました。 今回の実験結果では、CLS が顕著に良い結果となりました(実験 id:1, 4-6)。

  • CLS:最後の 4 層の CLS トークンの表現を連結
  • CNN:畳み込みニューラルネットワーク(CNN)を利用して文ベクトルを抽出
  • LSTM:長・短期記憶(LSTM)を用いて文ベクトルを抽出
  • MAX:max-pooling を用いて文ベクトルを抽出

4 点目は、英語以外の言語を機械翻訳で英語に変換する方法を検証しました。 多言語に比べ、英語の方がより大規模で事前学習されたモデルが公開されており、高い性能に繋がる可能性があります。 ただし今回の実験結果では、性能の向上は確認できませんでした(実験 id:1, 7)。

最後の 5 点目は、データ分割や最大長の影響です。 交差検証の分割数を大きくすることで性能の向上(実験 id:1, 8)、最大長を小さくすることで性能の劣化(実験 id:1, 9-11)が観測されました。

最終的には、これらの探索の結果を踏まえて作成したモデルの出力を重み付き平均しました。 重み付き平均で、最も良い結果が得られています(実験 id:12)。

終わりに

本記事では、今年参加した SemEval 2022 の Task 8: Multilingual News Article Similarity の概要とチームでの取り組みを紹介しました。 機械学習コンペは、Kaggle のようなプラットフォーム以外に、SemEval のような国際学会・ワークショップでも開催されています。 選択肢の一つとして、ぜひ参加を検討してみてください。

リンク集

論文

aclanthology.org

ソースコード

github.com

発表資料

ポスター

「第24回音声言語シンポジウム・第9回自然言語処理シンポジウム」で発表しました

「第24回音声言語シンポジウム・第9回自然言語処理シンポジウム」にて「国際会議参加報告 AACL-IJCNLP 2022」の題目で発表しました。 採択数などの統計情報や開催形式の報告をした後、個人的な興味関心をもとに気になった論文を紹介しました。 この国際会議では、Best paper がニュース記事関連だったので、少し詳しめに説明しています。

nl-ipsj.or.jp

このシンポジウムは、昨日 11 月 29 日から明日 1 日までの 3 日間の開催です(ハイブリッド形式で物理会場は東京タワーの真横の機械振興会館)。 私はコロナ禍の 2020 年ごろから自然言語処理に本格的に関わり始めたので、対面で自然言語処理系の学会に参加するのは初めてでした。 発表後の休憩時間に話し掛けていただく機会があるのは、対面の大きな魅力だなと感じています。 明日も引き続き参加してきます。

「Sports Analyst Meetup #13」を初のハイブリッドで開催しました

「Sports Analyst Meetup #13」を 2022 年 11 月 26 日、初のハイブリッドで開催しました。 「#12」の開催から 1 年弱たってしまい、告知も 11 月 11 日と直前になったにも関わらず、多くの方にご参加いただき、ご発表をご準備いただきました。

connpass.com

座談会「パフォーマンスと判定」

今回は運営企画として「パフォーマンスと判定」をテーマに座談会を開催しました。 登壇者は 2 名で、フェンシングを中心にスポーツアナリストとして活動する千葉洋平さんと、フィギュアスケートにさまざまな立場で関わる廣澤聖士さん。 それぞれ 10 分程度でテーマに沿ってご講演いただいた後、会場から寄せられた十数もの質問に丁寧にお答えいただきました。 この座談会は配信なしで実施したこともあり、生々しい話も含めて議論が盛り上がりました。 直後の休憩の時間にも登壇者と参加者の話し合いの輪ができており、対面開催の魅力を実感する場面でした。

ライトニングトーク(LT)

有志による 5 〜 10 分間の LT は、Sports Analyst Meetup (spoana) の定番企画です。 今回は 8 件の発表と質疑応答を実施しました。

私は運営を代表し、最初の発表を務めました。 spoana の 2022 年の取り組みを紹介し、来年以降の開催に向けた企画のアイディアを呼びかけました。 アンケート は参加有無に限らず 12 月 2 日ごろまで回答可能です。 ぜひ皆さんのご意見をお寄せください。

その他の一部の発表も、ご厚意で資料を ご公開 いただいています。 許諾の得られた発表は、YouTubeアーカイブを配信しています。

開催形式

初のハイブリッド開催にあたり、下図に示すような配信環境を整備しました。

運営の端末で Zoom に参加した上で、Web カメラ・Jabra・プロジェクタに接続しました。 登壇者が発表する際は、Zoom に参加して画面共有をしてもらいます。 運営の端末で Zoom の画面をプロジェクタでスクリーンに投影することで、会場の皆さんも画面を確認できます。 Web カメラ(ロジクール C920n)と Jabra(Speak 510)は、在宅勤務のために所有していた私物を利用しました。 プロジェクタ・スクリーンは、貸し会議室の備品です。 質疑応答では登壇者以外に司会が発言する機会もありましたが、Jabra のおかげで Zoom 参加の皆さまにもある程度は明瞭な音声をお届けできたように感じます。 音声配信の都合上、現地参加の皆さまも含めて質疑応答は Slido に集約しました。

現地会場では、不織布マスクの着用の推奨や受付時の消毒や検温など、東京都の感染症対策基本方針に則った感染対策を実施しました。 コロナ禍以前に実施していた飲食物の提供も控えました。 当日の体調に応じて、現地参加で登録した場合も遠慮なく Zoom 参加に切り替えるよう呼び掛けています。

終わりに

本記事では、11 月 26 日に開催した「Sports Analyst Meetup #13」についてご報告しました。 初のハイブリッド開催で拙い部分もあったかと存じますが、今回得られた教訓を踏まえて改善しつつ、来年以降も開催を続けていければと考えております。 改めて、今回ご発表・ご参加いただいた皆さまにお礼申し上げます。

自然言語処理の国際会議「AACL-IJCNLP 2022」に論文採択・参加報告

11 月 20〜23 日開催の自然言語処理の主要な国際会議「AACL-IJCNLP 2022」に参加しました。投稿した論文が本会議にロングペーパーとして採択され、22 日にポスター発表を実施しました。本記事の最後に、論文・コード・発表資料のリンクを掲載しています。

本研究では、コーパス内の通時的な単語の意味変化と、事前学習済み言語モデルの時系列性能劣化の関係性を議論しました。主要な発見の一つは「構築した word2vec や RoBERTa モデルの性能が時系列で大きく悪化する際に、学習用コーパス内の通時的な単語の意味変化が大きくなっている」点です。巨大なモデルが普及する中で(比較的低コストな)学習用コーパスの分析から、再学習した場合の性能を推察できるのは実用上の利点があります。

この研究では、学習用コーパスの期間を変えながら日・英の word2vec モデルや 12 個の日本語 RoBERTa モデルを作成・分析しました。 Amazon SageMaker を駆使して独自の大規模言語モデルを構築している実装面の話は、AWS のイベントで紹介したのでご関心あればご覧ください。

今回の採択論文は、今年 3 月の「言語処理学会第28回年次大会(NLP2022)」での発表内容の発展版です。ポスター発表で頂いたさまざまなコメント・質問に対応する形で、方向性を見定めて内容を充実させることができました。この場を借りて、改めてお礼申し上げます。

ありがたいことに、11 月 30 日開催の「第254回NL・第144回SLP合同研究発表会-情報処理学会」にて「AACL-IJCNLP 2022」の参加報告を実施する機会を頂きました。発表資料も公開予定なので、ご関心あればぜひご覧ください。

論文・コード・発表資料

aclanthology.org github.com

【書籍メモ】『新 企業の研究者をめざす皆さんへ』(近代科学社)

「Kaggle Days Championship Final」でスペイン・バルセロナに来ています(参照)。航空機含めてインターネットに接続できない期間も多かったので『新 企業の研究者をめざす皆さんへ』(近代科学社)を読んでいました。含蓄に富む書籍で、また日をあけて改めて読み返すと新たな気づきがありそうに感じました。

www.kindaikagaku.co.jp

以下、個人的に気になった点を綴ります。

Research That Matters

第1章のタイトルにもなっているメッセージです。「企業で行う研究は、その成果が世の中に目に見えるインパクトを与えるべきである」という第1文から始まり、本書では一貫して企業での研究の意義を訴えかけています。問題設計の大切さや論文を書く理由など、話題は多岐にわたります。個人的には「もしあなたが、今まで設定した問題をすべて解いてきたのだとすれば、あなたは研究者として十分にチャレンジしてはこなかった」という言葉はなかなか痛いところを突かれました。どちらかというと要領よく物事を進めがちなタチなので、挑戦の気概を持ち続けねばと気を引き締めました。

多様なコミュニケーション

本書はコロナ禍前の 2019 年 12 月に刊行されましたが、第 3 章では既に Slack だけではない対面コミュニケーションの大切さが強調されていました。 その他、会議・議論・研究発表など、各種コミュニケーション方法についての所感がまとめられています。 特に「3.4 交渉する」で言及されていた「説得と納得の違い」が印象に残っています。

リーダーシップ

研究者としてのリーダーシップに関する話題が、第 5 章にまとまっています。 「リーダーシップには決まった正解がない」とした上で「いくつか紹介したベストプラクティスや、他人の経験から学び、また皆さん自身の実践から自分のリーダーシップスタイルを見つけていってほしい」と総括しているのが、とても良いメッセージだなと感じました。 自分自身も少しずつ他者を巻き込んでの仕事が増えているので、先人に学びつつ自分なりのやり方を模索していこうと思います。

【PyCon JP 2022】「実践:日本語文章生成 Transformersライブラリで学ぶ実装の守破離」で登壇

10 月 14、15 日開催の「PyCon JP 2022」に登壇します。昨年に続いて、2 度目の登壇です。今年は「実践:日本語文章生成 Transformersライブラリで学ぶ実装の守破離」の題目で採択されました。発表は TOC 有明コンベンションホールで実施し、YouTube Live での配信もあるそうです(connpass)。ご関心ある方は、ぜひご覧ください。

この登壇では、最近業務で取り組んでいる内容の一部を PyCon JP 向けに切り取ってお話しします。この話題については、AWS 活用事例研究など、さまざまな形で対外発信をしています。自分が中心になって推進しているプロジェクトの話なので、ぜひお気軽にいろいろな観点から議論ができれば嬉しいです。ご質問や現地での雑談などを楽しみにしています。

参考: 昨年の登壇

昨年は「印象に残ったトーク」で 3 位を頂きました。改めてお礼申し上げます。

2021.pycon.jp

youtu.be

【書籍メモ】『社会科学のための統計学入門』(講談社)

講談社からご恵贈いただいた『社会科学のための統計学入門』を読みました。身近な事例を題材に統計学の基礎を解説しています。個人的には著者の統計学に対する姿勢に同意する部分が大きかったです。

www.kspub.co.jp

技術書を読む際、特に重視しているのが最初と最後です。共に著者の思いが込められている章です。前者は広い読者向けに書籍の概要や方向性が解説され、後者は書籍に盛り込めなかった発展的な内容が議論されています。 本書では「Chapter 0 イントロダクション 社会科学と統計学」と「Part IV 終わりに Chapter 15 統計学の応用とこれから ビッグデータベイズ統計学」が該当します。 4ページの「イントロダクション」で、統計学を使う中でどうしても主観が入る旨を記載している点が個人的に好印象でした。この点については「終わりに」で紹介する機械学習ビッグデータでも一貫して言及しています。

本書ではデータを集めて要約する方法から始め、相関と因果の議論・予測・検定・分布などの話題を扱います。「社会科学のための」という枕詞は付いていますが、実践や応用の対象として社会科学を見据えている面が大きいです。広く統計学を学びたい人が読む書籍としても、初学者にお勧めしやすい書籍でした。