年末恒例の振り返り記事です。 2021 年 4 月の部署異動を契機に、今年も研究開発部署にて案件を自分自身で創出・推進していくことに挑戦した一年でした。 特に「ChatGPT」に代表される大規模言語モデルが社会一般に認知されたことで、ありがたいことにここ数年の自分の取り組みへの注目度も上がったと感じました。
本記事では、対外公表している事例の一覧をまとめました。 社内プロジェクトで公表できている部分は多くないですが、今年は 2 件の社内表彰を頂けました。 来年も事業貢献と研究活動の両面を追い求めていければと思っています。
査読付き国際学会・ワークショップ
データマイニングの「CIKM」、計算社会科学の「IC2S2」など、主要な国際会議に採択されました。7 月 17〜20 日にデンマーク・コペンハーゲンで開催された「IC2S2」には現地参加でき、有意義な時間を過ごせました。
ACL 2023 のワークショップに採択された「Training Data Extraction From Pre-trained Language Models: A Survey」は単著のサーベイ論文です。このサーベイの起点とした論文の著者の新着論文で引用されたのは、研究コミュニティへの貢献を感じられる非常に感慨深い体験になりました。
- Kaito Majima†, and Shotaro Ishihara† (2023). Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem. Proceedings of the 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023). Association for Computing Machinery. (†equal contribution) [arXiv] [paper]
- Shotaro Ishihara, Hiromu Takahashi, and Hono Shirai (2023). Quantifying Diachronic Language Change via Word Embeddings: Analysis of Social Events using 11 Years News Articles in Japanese and English. 9th International Conference on Computational Social Science (IC2S2 2023). [abstract] [poster]
- Shotaro Ishihara (2023). Training Data Extraction From Pre-trained Language Models: A Survey. Proceedings of Third Workshop on Trustworthy Natural Language Processing. [arXiv] [paper] [poster]
国内学会・研究会発表
- 石原祥太郎, 高橋寛武 (2023). ニュース記事の逆ピラミッド構造は読みやすさ評価に使えるか. NLP若手の会 (YANS) 第18回シンポジウム.
- 村田栄樹, 石原祥太郎 (2023). ドメイン別に訓練した要約モデルにおけるHallucinationの内在・外在要因分析. NLP若手の会 (YANS) 第18回シンポジウム.
- 増田太郎, 櫻井亮佑, 桐井智弘, 渡邊英介, 石原祥太郎 (2023). 企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築. NLP若手の会 (YANS) 第18回シンポジウム.
- 石原祥太郎, 中間康文 (2023). マルチモーダル機械学習によるニュース記事の閲覧時間予測. 2023年度人工知能学会全国大会(第37回)論文集.
- 石原祥太郎 (2023). 事前学習済み言語モデルからの訓練データ抽出:新聞記事の特性を用いた評価セットの構築と分析. 言語処理学会第29回年次大会発表論文集. [paper]
- 大村和正 (京大), 白井穂乃, 石原祥太郎, 澤紀彦 (2023). 極性と重要度を考慮した決算短信からの業績要因文の抽出. 言語処理学会第29回年次大会発表論文集. [paper]
- 石原祥太郎, 高橋寛武, 白井穂乃 (2023). 単語分散表現による言語の通時変化の定量化:11年分の日英ニュース記事を用いた社会的事象の分析. 第2回計算社会科学会大会(CSSJ2023). (大会優秀賞 [website])
書籍
講談社から共著で『Kaggleに挑む深層学習プログラミングの極意』を出版しました。 画像・自然言語処理の機械学習コンテストを題材として、深層学習ライブラリ「PyTorch」での実装を交えながら、著者らの経験に基づく知見をまとめました。
ニューズレター
ニューズレター「Weekly Kaggle News」が本日 4 周年を迎えました。 日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱っています。 週次で毎週金曜日に更新しており、最新は第 211 号、購読者数は約 2700 人になりました。 今年からプラットフォームを Substack に変更しました。
受賞
2 月に第 2 回計算社会科学会大会で発表した「単語分散表現による言語の通時変化の定量化:11年分の日英ニュース記事を用いた社会的事象の分析」で、優秀賞を頂きました。12 月には Google Cloud の Champion Innovator (Cloud AI/ML 領域) にご選出いただきました。
- 第2回計算社会科学会大会優秀賞
- Google Cloud Champion Innovator (Cloud AI/ML)
イベント登壇
- テキスト生成 AI の基礎と金融特化モデルの開発, 日経金融工学研究所年末セミナー, Dec 7th, 2023.
- 「極意本」サンプルコードをクラウド上で動かそう, Kaggle Tokyo Meetup 2023, Nov 26, 2023.
- 論文紹介 Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem (CIKM 2023), IR Reading 2023秋, Nov 18, 2023.
- 「文理」の壁を越えて:データサイエンスが変えるニュースメディア, 東海高校「研究&仕事紹介講座」, Nov 2nd, 2023.
- 事前学習済み言語モデルとニュースメディア〜応用可能性と課題〜, 立教大学人工知能科学研究科: AIビジネス特論B, Nov 1st, 2023.
- 事前学習済み言語モデルとニュースメディア〜応用可能性と課題〜, 立教大学人工知能科学研究科: AIビジネス特論B, Oct 25th, 2023.
- 日本経済新聞社におけるWandBの活用例, Fully Connected 2023 Tokyoカンファレンス, Oct 11th, 2023.
- 関東 Kaggler 会スポンサーセッション, 関東 Kaggler 会, Sep 23th, 2023.
- 生成 AI のこれまでとこれから, Innovators Live Japan, Google Cloud, Sep 5th, 2023.
- 論文紹介 Quantifying attention via dwell time and engagement in a social media browsing environment, ウェブ・ソーシャルメディア論文読み会 第八回, Aug 24th, 2023.
- 論文紹介 Discovering and Categorising Language Biases in Reddit, ウェブ・ソーシャルメディア論文読み会 第五回, May 18th, 2023.
- AMA (Ask me anything) 『Kaggleに挑む深層学習プログラミングの極意』, W&B 東京ミートアップ #2, Mar 22nd, 2023.
- 著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』, みんなのPython勉強会#90, Feb 16th, 2023.
インタビュー・メディア掲載
- Kaggleの面白さと有効性(データサイエンティスト鼎談), 電気通信大学 D×2プログラムWebサイト, Aug 18th, 2023.
- 実践的データサイエンスとは(データサイエンティスト鼎談), 電気通信大学 D×2プログラムWebサイト, Aug 18th, 2023.