言語処理100本ノック 2020「62. 類似度の高い単語10件」

python 自然言語処理

問題文 nlp100.github.io 問題の概要 most_similar *1 を使います。topn で上位何件を返すかを指定できます。デフォルトで topn=10 となっていますが、分かりやすさのために敢えて明示的に指定しています。 from gensim.models import KeyedVectors model = …

2023-11-05

言語処理100本ノック 2020「61. 単語の類似度」

python 自然言語処理

問題文 nlp100.github.io 問題の概要コサイン類似度を計算します。 from gensim.models import KeyedVectors model = KeyedVectors.load_word2vec_format('ch07/GoogleNews-vectors-negative300.bin', binary=True) print(model.similarity("United_States",…

2023-11-05

言語処理100本ノック 2020「60. 単語ベクトルの読み込みと表示」

python 自然言語処理

問題文 nlp100.github.io 問題の概要本章では、単語の意味を実ベクトルで表現する単語ベクトル（単語埋め込み）を扱います。最初に、学習済みモデルをダウンロードし、単語ベクトルを表示します。 from gensim.models import KeyedVectors model = KeyedVec…

2023-06-12

ニューヨーク & 熊本に行きました

随筆

5 月末から 6 月にかけて、ニューヨークと熊本に行ったという事実の備忘録です。ニューヨーク書けることが少ないので、業務時間外での観光情報のみです。熊本人工知能学会全国大会で 8 日 (木) 13:30-15:10 にポスター発表をしました。熊本城まで徒歩10…

2023-02-27

【書籍メモ】『新しいヒューマンコンピュータインタラクションの教科書』（講談社）

書籍メモ

『新しいヒューマンコンピュータインタラクションの教科書』（講談社）を読みました。人間やコンピュータが交わる「ヒューマンコンピュータインタラクション（HCI）」という研究領域に関する書籍です。 www.kspub.co.jp 現在注目の話題となっている「ChatGP…

2023-02-27

【書籍メモ】『ディープフェイクの衝撃ＡＩ技術がもたらす破壊と創造』（PHP 新書）

書籍メモ

『ディープフェイクの衝撃ＡＩ技術がもたらす破壊と創造』（PHP 新書）を読みました。画像・テキストなどを生成する人工知能技術（生成 AI）が急速な発展を遂げる中で、これらの技術が生み出す危険性の側面を理解しておくことは非常に重要です。本書はデ…

2023-02-21

【書籍メモ】『応用基礎としてのデータサイエンス』（講談社）

書籍メモ

『応用基礎としてのデータサイエンス』（講談社）を出版社のご厚意でお送りいただきました。豪華な著者陣による書籍で、データサイエンスに関連する広範な話題を 1 冊にまとめています。具体的な内容は目次をご参照ください。 www.kspub.co.jp 以前に読ん…

2023-02-08

大阪環状線を徒歩で一周した

随筆

1 月に国内外の論文投稿の締め切りラッシュがあった影響で、気分転換のために 1 月 28 日〜 2 月 12 日に休暇を取得しました。愛知・兵庫・京都・大阪などを気ままに転々としています。今日は、大阪環状線*1を徒歩で一周してみました。大阪環状線は一周 2…

2023-02-06

「Kaggle Days Paris 2022」の講演動画が公開されている

Kaggle

2022 年 11 月に開催された「Kaggle Days Paris 2022」での有識者の講演動画が LogicAI の YouTube チャンネルで公開されています。現時点で公開されている動画を土日に眺めたので、本記事で概要を紹介します。 Kaggle Days Paris 2022_Walter Reade_A quic…

2023-01-25

【Polars版】『PythonではじめるKaggleスタートブック』のサンプルコード

Kaggle python

『PythonではじめるKaggleスタートブック』で提供しているサンプルコードを、pandasからPolarsに書き換えた Notebook を作成しました。Polars は、Rustベースの高速なデータ処理ライブラリです。 www.kaggle.com pandas での書き方をコメントで残しているの…

2023-01-02

「Weekly Kaggle News」配信プラットフォーム変更

Kaggle

以下の配信でお知らせした通り、Weekly Kaggle News は2023 年 1 月 6 日から「Substack」を用いて配信します。 Weekly Kaggle News は 2019 年 12 月から、メール配信プラットフォームの「Revue」を用いて、 Kaggle をはじめとするデータ分析コンペティショ…

2022-12-31

2022年をザッと振り返る

随筆

年末恒例の振り返り記事です。昨年 4 月の部署異動を契機に、今年も研究開発部署にて案件を自分自身で創出・推進していくことに挑戦した一年でした。本記事では、対外公表している事例の一覧をまとめました。今年執筆していた共著の作業も終わり、出版が…

2022-12-20

【Weekly Kaggle News 3 周年】クリック記事ランキング 2022

Kaggle

「Kaggle Advent Calendar 2022」の 20 日目の記事です。ニューズレター「Weekly Kaggle News」が本日 3 周年を迎えました。日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱っています。週次で毎週金曜日に更新しており、…

2022-12-19

【書籍メモ】『Kaggleに挑む深層学習プログラミングの極意』（講談社）

自然言語処理画像処理 Kaggle 書籍メモ

※ 「Kaggle Advent Calendar 2022」の 25 日目の記事ですご縁があって、講談社から共著で『Kaggleに挑む深層学習プログラミングの極意』を出版します。画像・自然言語処理の機械学習コンテストを題材として、深層学習ライブラリ「PyTorch」での実装を交え…

2022-12-16

「東京大学グローバル・インターンシップ・プログラム（UGIP）」の勉強会に登壇しました

自然言語処理発表資料

※ 「Kaggle Advent Calendar 2022」の「Calendar2」の 16 日目の記事です 12 月 16 日に開催された「東京大学グローバル・インターンシップ・プログラム（UGIP）」の勉強会に登壇し、機械学習コンテストや実務での事例を題材に、データ分析プロジェクトの進…

2022-12-12

YANS2022 ハッカソン参加録：ランク学習による商品レビュー評価

Kaggle 発表資料自然言語処理

※ 「Kaggle Advent Calendar 2022」の 12 日目の記事です。今年 8 月に「NLP 若手の会 (YANS) 第 17 回シンポジウム」（YANS2022）内で開催されたハッカソンに参加しました。特定の評価指標での性能を競うハッカソンで、今年はアマゾンウェブサービスジャ…

2022-12-07

SemEval-2022 Task 8 参加録：多言語ニュースの話題一致判定

自然言語処理発表資料

「Kaggle Advent Calendar 2022」の 7 日目の記事を担当します。本記事では、今年参加した国際ワークショップでの機械学習コンペ「SemEval 2022 Task 8: Multilingual News Article Similarity」の概要とチームでの取り組みを紹介します。 SemEval とは「S…

2022-11-30

「第24回音声言語シンポジウム・第9回自然言語処理シンポジウム」で発表しました

発表資料自然言語処理

「第24回音声言語シンポジウム・第9回自然言語処理シンポジウム」にて「国際会議参加報告 AACL-IJCNLP 2022」の題目で発表しました。採択数などの統計情報や開催形式の報告をした後、個人的な興味関心をもとに気になった論文を紹介しました。この国際会議…

2022-11-27

「Sports Analyst Meetup #13」を初のハイブリッドで開催しました

「Sports Analyst Meetup #13」を 2022 年 11 月 26 日、初のハイブリッドで開催しました。「#12」の開催から 1 年弱たってしまい、告知も 11 月 11 日と直前になったにも関わらず、多くの方にご参加いただき、ご発表をご準備いただきました。 connpass.com…

2022-11-23

自然言語処理の国際会議「AACL-IJCNLP 2022」に論文採択・参加報告

自然言語処理発表資料 python

11 月 20〜23 日開催の自然言語処理の主要な国際会議「AACL-IJCNLP 2022」に参加しました。投稿した論文が本会議にロングペーパーとして採択され、22 日にポスター発表を実施しました。本記事の最後に、論文・コード・発表資料のリンクを掲載しています。本…

2022-11-01

【書籍メモ】『新　企業の研究者をめざす皆さんへ』（近代科学社）

書籍メモ

「Kaggle Days Championship Final」でスペイン・バルセロナに来ています（参照）。航空機含めてインターネットに接続できない期間も多かったので『新企業の研究者をめざす皆さんへ』（近代科学社）を読んでいました。含蓄に富む書籍で、また日をあけて改め…

2022-10-13

【PyCon JP 2022】「実践：日本語文章生成　Transformersライブラリで学ぶ実装の守破離」で登壇

発表資料

10 月 14、15 日開催の「PyCon JP 2022」に登壇します。昨年に続いて、2 度目の登壇です。今年は「実践：日本語文章生成 Transformersライブラリで学ぶ実装の守破離」の題目で採択されました。発表は TOC 有明コンベンションホールで実施し、YouTube Live で…

2022-09-26

【書籍メモ】『社会科学のための統計学入門』（講談社）

書籍メモ

講談社からご恵贈いただいた『社会科学のための統計学入門』を読みました。身近な事例を題材に統計学の基礎を解説しています。個人的には著者の統計学に対する姿勢に同意する部分が大きかったです。 www.kspub.co.jp 技術書を読む際、特に重視しているのが最…

2022-08-13

「一発ジャンケン」の確率シミュレーション

python

Yahoo!ニュースを眺めていて見かけた「一発ジャンケン」が、プログラミングの教材として良さげだったので、実際に簡単なプログラムを組んでみました。ルールは以下の通りです（記事からの抜粋）。まず、１～５を指で出す。数字が大きい人が勝ちなので５が一…

2022-08-08

機械学習を用いたサービス開発者として最近読んだ3冊

機械学習を用いたサービス開発者として、最近読んだ3冊の簡単な紹介です。ここ2年ほどは、自らプロジェクトを設計して推進する立場も多くなってきました。いずれも手元に置いておいて、しばらくして読み返すとまた違った気づきがあるような書籍だと思いま…

2022-07-10

【書籍メモ】『Pythonによる金融テキストマイニング』（朝倉書店）

python 書籍メモ

『Pythonによる金融テキストマイニング』（朝倉書店）を読みました。180 ページ弱で金融関連文書を題材にした話題がまとまっていて、この領域に飛び込む初学者向けに紹介しやすい書籍だと感じました。 www.asakura.co.jp 章立てを以下に示します。第 1 章で…

2022-05-18

国際会議「ACL2022」の "News" を含む論文の一言メモ

自然言語処理論文メモ

自然言語処理の最重要国際会議の一つ「ACL2022」の Proceedings にて "News" をタイトルに含む論文の一言メモです。要約・フェイクニュース検出・推薦の話題が多かった印象です。 Long Papers https://aclanthology.org/2022.acl-long.97/ 情報源・情報源が…