「Kaggle Advent Calendar 2024」の 17 日目を担当します。 本記事では 12、15、16 日目の記事に関連して、学会で開催されるコンペ(以降、学会コンペ)を通じて、論文執筆の流れを学んだ話を綴ります。 あまり一般的ではないキャリアのため直接参考になる読者は多くないかもしれませんが、コンペが「役に立った」事例の一つとして紹介できればと考えています。
本記事の背景
著者の私は今現在、事業会社の研究開発部門に所属し、業務の一つとして論文執筆にも取り組んでいます。 2024 年は、国内論文誌に主著 2 本と共著 1 本が採録された他、国際学会でも 2 度の口頭発表を実施しました(参照:Appendix)。
私の簡単な経歴は次の通りです。 2021 年 4 月に事業部門から研究開発部門に異動した当時、大学を離れてから数年の間隔が空いていました。
- 大学・大学院(2016〜2017 年):学部 4 年時に研究室配属され、卒業論文のほか、査読付き国際学会 1 本、査読なし国内学会 1 本を経験。
- 事業部門(2017〜2021 年):事業会社の事業部門でデータ分析や機能開発に従事。社外活動として Kaggle などの機械学習コンペに参加。
- 研究開発部門(2021 年〜):事業会社の研究開発部門で、主に事前学習済みモデルの開発と活用に従事。
そこで企業研究者としてのキャリア初期となった 2021 年から 2022 年にかけて、学会コンペを通じて論文を執筆できる機会があれば、積極的に取り組むように意識していました。
- Shotaro Ishihara, Shuhei Goda, Yuya Matsumura (2021). Weighted Averaging of Various LSTM Models for Next Destination Recommendation, Proceedings of the Workshop on Web Tourism co-located with the 14th ACM International WSDM Conference (WSDM 2021). => 以降、WebTour 2021
- Shotaro Ishihara, Shuhei Goda, and Hidehisa Arai (2021). Adversarial Validation to Select Validation Data for Evaluating Performance in E-commerce Purchase Intent Prediction. Proceedings of the ACM SIGIR Workshop on eCommerce (SIGIR eCom’21). => 以降、SIGIR eCom 2021
- Shotaro Ishihara, and Hono Shirai (2022). Nikkei at SemEval-2022 Task 8: Exploring BERT-based Bi-Encoder Approach for Pairwise Multilingual News Article Similarity. Proceedings of the 16th International Workshop on Semantic Evaluation (SemEval 2022). => 以降、SemEval 2022
学会コンペを通じた論文執筆の特徴
学会コンペでは一般的に、終了後に主催者が参加者に、解法を報告する論文執筆(やソースコード公開)を促します。 上位入賞チームが賞金を受け取るには、論文提出が必要要件になっていることも多いです。 必ずしも上位入賞チームでなくとも、論文提出は可能な場合もあります。
学会コンペを通じた論文執筆には次のような特徴があり、論文執筆の勘所を掴むのに良い機会になったと感じています。 以降、それぞれの特徴について具体的に説明していきます。
- 題材や論文の構成がある程度決まっている
- 執筆・査読の期間が短い
- 同じ題材による論文が複数公開される
1. 題材や論文の構成がある程度決まっている
研究者としてのキャリア初期は、研究テーマの模索に一定の時間がかかるかと思います。 そんな中、学会コンペでは主催者から題材が提供され、スコアを争う中での試行錯誤の実験結果を論文として執筆できます。 論文の構成も型が概ね決まっており「どこ」に「何」を書くかで迷う場面は比較的少ない印象です。 自分が取り組んだ内容を「どうやって」表現するかに注力できたのは、良い経験になりました。
2. 執筆・査読の期間が短い
学会コンペでは、執筆・査読の期間が短い場合が多いです。 たとえば、私が論文を書いた 3 つの学会コンペの終了・論文提出締切・査読結果通知の日付は以下の通りでした。
| コンペ名 | コンペ終了 | 論文提出締切 | 査読結果通知 |
|---|---|---|---|
| WebTour 2021 | 2021-01-29 | 2021-02-12 | 2021-02-26 |
| SIGIR eCom 2021 | 2021-06-17 | 2021-06-25 | 2021-07-08 |
| SemEval 2022 | 2022-01-31 | 2022-02-23 | 2022-03-31 |
短期間で論文執筆のために多くの学びを得る機会となりました。 学会コンペは当該の機会を逃すと別の場に再投稿しづらく、締切効果も大きいです。 査読結果の通知も比較的早いため、論文投稿の一連の流れを素早く体験できました。
3. 同じ題材による論文が複数公開される
同じ題材で執筆された他者の論文を読み比べできるのも、貴重な機会となりました。 学会コンペでは上位入賞チームを中心に、複数の論文が採択されて公開されます。 自分で論文を提出できるくらい注力した学会コンペであれば、題材として読みづらい部分は少なく、論文に素早く目を通せると期待できます。 学会コンペの課題やデータ説明など、全チームで共通している箇所でも、書き方の違いで読み手が受ける印象が大きく変わることが身をもって実感できました。
学会コンペの上位解法は、学会内で発表の機会が与えられる場合も多いです。 自分自身が発表の経験を積めるのはもちろん、他チームの発表からもたくさんの知見が得られました。 純粋に国際学会の雰囲気を体験できるのも利点の一つです。
終わりに
本記事では学会コンペの特徴も踏まえて、論文執筆の流れを学んだ話を紹介しました。 コンペの(これまであまり語られてこなかった類いの)活用事例の一つとして、参考になる方がいればと思います。
Appendix: 今年採択された論文誌・国際学会
- 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用. 自然言語処理, 31巻, 4号.
- 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語処理, 31巻, 4号.
- 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之 (2024). 企業名の類似度に基づく日経企業IDリンキングシステムの構築と分析. 自然言語処理, 31巻, 3号.
- Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of the 17th International Natural Language Generation Conference (INLG 2024).
- Shotaro Ishihara (2024). Quantifying Memorization of Domain-Specific Pre-trained Language Models using Japanese Newspaper and Paywalls. Fourth Workshop on Trustworthy Natural Language Processing (Non-archival track).