u++の備忘録

2024 年をザッと振り返る

年末恒例の振り返り記事です。例年通り、対外公表している事例の一覧をまとめました。社内での取り組みについては対外公表できていない話題も多いですが、今年は一部ですがプレスリリースを打てたのが印象に残っています。

査読付き論文

主著で論文誌に2本採録された他、国際会議でも2度発表の機会を頂きました。

  • 石原祥太郎, 村田栄樹, 中間康文, 高橋寛武 (2024). 日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用. 自然言語処理, 31巻, 4号. [paper ] [code ]
  • 石原祥太郎, 高橋寛武, 白井穂乃 (2024). Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語処理, 31巻, 4号. [paper ] [code ]
  • 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之 (2024). 企業名の類似度に基づく日経企業IDリンキングシステムの構築と分析. 自然言語処理, 31巻, 3号. [paper ]
  • Shotaro Ishihara and Hiromu Takahashi (2024). Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of the 17th International Natural Language Generation Conference (INLG 2024). [arXiv ] [paper ] [poster ] (acceptance rate: 0.58=57/98)
  • Shotaro Ishihara (2024). Quantifying Memorization of Domain-Specific Pre-trained Language Models using Japanese Newspaper and Paywalls. Fourth Workshop on Trustworthy Natural Language Processing (Non-archival track). [arXiv ] [poster ] (acceptance rate: 0.91=40/44)

査読なし発表・原稿

以前から関心があったヒューマンコンピュータインタラクションの学会に投稿したのは、新しい挑戦でした。

  • 田邉耕太, 石原祥太郎, 山田健太, 青田雅輝, 又吉康綱 (2024). ニュースを身近に:日常風景からのニュース推薦. 第 210 回ヒューマンコンピュータインタラクション・第 84 回ユビキタスコンピューティング合同研究発表会. [paper ]
  • 阿波智彦, 石原祥太郎 (2024) 日経「星新一賞」と生成AI. 情報処理学会・学会誌「情報処理」2024年9月号. [website ]
  • 白井穂乃, 石原祥太郎 (2024). 見出し意味具体化に向けた日本語ベンチマークの構築. 言語処理学会第30回年次大会発表論文集. [paper ]
  • 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎, 山田剛, 進藤裕之 (2024). 日経企業IDリンキングのための類似度ベースELシステムの構築と分析. 言語処理学会第30回年次大会発表論文集. [paper ]

学会委員

人工知能学会の企画委員(コンペティション担当)を拝命しました。 業務の一つとして「人工知能学会コンペティション開催支援制度」の運営に関わっています。

upura.hatenablog.com

書籍

事例に関する一つの章を担当しました。Kaggle 以外の話題で、初めての商用出版でした。

  • 杉山阿聖, 太田満久, 久井裕貴 (編著) (2024). 大規模言語モデルの研究開発から実運用に向けて, 事例でわかるMLOps 機械学習の成果をスケールさせる処方箋 11章. 講談社. [website ]

ニューズレター

ニューズレター「Weekly Kaggle News」が 5 周年を迎えました。

upura.hatenablog.com

イベント登壇

今年もありがたいことに、多くの登壇の機会を頂きました。

インタビュー・メディア掲載