u++の備忘録

2023 年をザッと振り返る

年末恒例の振り返り記事です。 2021 年 4 月の部署異動を契機に、今年も研究開発部署にて案件を自分自身で創出・推進していくことに挑戦した一年でした。 特に「ChatGPT」に代表される大規模言語モデルが社会一般に認知されたことで、ありがたいことにここ数年の自分の取り組みへの注目度も上がったと感じました。

本記事では、対外公表している事例の一覧をまとめました。 社内プロジェクトで公表できている部分は多くないですが、今年は 2 件の社内表彰を頂けました。 来年も事業貢献と研究活動の両面を追い求めていければと思っています。

査読付き国際学会・ワークショップ

データマイニングの「CIKM」、計算社会科学の「IC2S2」など、主要な国際会議に採択されました。7 月 17〜20 日にデンマークコペンハーゲンで開催された「IC2S2」には現地参加でき、有意義な時間を過ごせました。

ACL 2023 のワークショップに採択された「Training Data Extraction From Pre-trained Language Models: A Survey」は単著のサーベイ論文です。このサーベイの起点とした論文の著者の新着論文で引用されたのは、研究コミュニティへの貢献を感じられる非常に感慨深い体験になりました。

  • Kaito Majima†, and Shotaro Ishihara† (2023). Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem. Proceedings of the 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023). Association for Computing Machinery. (†equal contribution) [arXiv] [paper]
  • Shotaro Ishihara, Hiromu Takahashi, and Hono Shirai (2023). Quantifying Diachronic Language Change via Word Embeddings: Analysis of Social Events using 11 Years News Articles in Japanese and English. 9th International Conference on Computational Social Science (IC2S2 2023). [abstract] [poster]
  • Shotaro Ishihara (2023). Training Data Extraction From Pre-trained Language Models: A Survey. Proceedings of Third Workshop on Trustworthy Natural Language Processing. [arXiv] [paper] [poster]

国内学会・研究会発表

  • 石原祥太郎, 高橋寛武 (2023). ニュース記事の逆ピラミッド構造は読みやすさ評価に使えるか. NLP若手の会 (YANS) 第18回シンポジウム.
  • 村田栄樹, 石原祥太郎 (2023). ドメイン別に訓練した要約モデルにおけるHallucinationの内在・外在要因分析. NLP若手の会 (YANS) 第18回シンポジウム.
  • 増田太郎, 櫻井亮佑, 桐井智弘, 渡邊英介, 石原祥太郎 (2023). 企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築. NLP若手の会 (YANS) 第18回シンポジウム.
  • 石原祥太郎, 中間康文 (2023). マルチモーダル機械学習によるニュース記事の閲覧時間予測. 2023年度人工知能学会全国大会(第37回)論文集.
  • 石原祥太郎 (2023). 事前学習済み言語モデルからの訓練データ抽出:新聞記事の特性を用いた評価セットの構築と分析. 言語処理学会第29回年次大会発表論文集. [paper]
  • 大村和正 (京大), 白井穂乃, 石原祥太郎, 澤紀彦 (2023). 極性と重要度を考慮した決算短信からの業績要因文の抽出. 言語処理学会第29回年次大会発表論文集. [paper]
  • 石原祥太郎, 高橋寛武, 白井穂乃 (2023). 単語分散表現による言語の通時変化の定量化:11年分の日英ニュース記事を用いた社会的事象の分析. 第2回計算社会科学会大会(CSSJ2023). (大会優秀賞 [website])

書籍

講談社から共著で『Kaggleに挑む深層学習プログラミングの極意』を出版しました。 画像・自然言語処理機械学習コンテストを題材として、深層学習ライブラリ「PyTorch」での実装を交えながら、著者らの経験に基づく知見をまとめました。

upura.hatenablog.com

ニューズレター

ニューズレター「Weekly Kaggle News」が本日 4 周年を迎えました。 日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱っています。 週次で毎週金曜日に更新しており、最新は第 211 号、購読者数は約 2700 人になりました。 今年からプラットフォームを Substack に変更しました。

upura.hatenablog.com

受賞

2 月に第 2 回計算社会科学会大会で発表した「単語分散表現による言語の通時変化の定量化:11年分の日英ニュース記事を用いた社会的事象の分析」で、優秀賞を頂きました。12 月には Google Cloud の Champion Innovator (Cloud AI/ML 領域) にご選出いただきました。

イベント登壇

インタビュー・メディア掲載