「Kaggle Advent Calendar 2023」の 20 日目の記事です。
ニューズレター「Weekly Kaggle News」が本日 4 周年を迎えました。日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱っています。週次で毎週金曜日に更新しており、最新は第 209 号、購読者数は 2680 人になっています。今年からプラットフォームを Substack に変更しました*1。メール配信の性質上あまり実感が湧きづらいのですが、今年だけで約 350 人も購読者数が増えたようで驚きです。
それでは、今年発行の Weekly Kaggle News 経由で閲覧された URL のランキング結果を紹介します。単純なクリック回数なので、購読者数が増えている直近の回が有利な条件になっています。なお過去分もランキングを公開しています。
見落としていた記事があれば、ぜひご覧ください。
1 位: 124 クリック(#192)
1 位は、今年 6 月に終了した Kaggle「Vesuvius Challenge - Ink Detection」で Grandmaster に昇格した tk さん による振り返り記事。コンペの取り組み方と、参加した各コンペの概要・解法が綴られています。
2 位: 112 クリック(#206)
2 位は、年末に出版される書籍『事例で学ぶ特徴量エンジニアリング』(オライリー・ジャパン)が入りました。特徴量エンジニアリングの基本概念や事例が掲載されている書籍だそうです。
https://www.amazon.co.jp/dp/4814400543
3 位: 105 クリック(#165)
テーブルデータを高速に処理する Polars は、今年に急速に認知度が高まったライブラリと言えるかもしれません。定番の Pandas との比較記事が 3 位になりました。
4 位: 103 クリック(#163)
昨年末から今年にかけて開催された Kaggle「OTTO – Multi-Objective Recommender System」では、不正行為が大きな話題となりました。この話題に関する Kaggle 上の投稿が 4 位にランクインです。
5 位: 101 クリック(#200)
5 位は、Kaggle の画像コンペを題材にした入門資料の後編。前編の資料も公開されています。今年も数多くの画像コンペが開催されました。
6 位: 97 クリック(#166)
ChatGPT に代表される大規模言語モデルが大きな話題となった今年、その土台となる Transformer 機構の解説記事が 6 位に入りました。構造や応用を幅広く扱って解説しています。
7 位: 97 クリック(#184)
7 位は、テーブルデータに対してニューラルネットワークを適用する手法の検証記事。今なお根強い人気のある勾配ブースティング決定木と比較しています。
8 位: 92 クリック(#181)
深層学習モデルの高速化手法のまとめ資料が 8 位になりました。畳み込みニューラルネットワー(CNN)と Vision Transformer を中心に掘り下げています。
9 位: 91 クリック(#182)
9 位は、今年 6 月に出版された『LightGBM予測モデル実装ハンドブック』(秀和システム)。勾配ブースティング決定木の LightGBM の理論と実践のための書籍です。
https://www.amazon.co.jp/dp/479806761X
10 位: 88 クリック(#189)
自作の機械学習パイプラインを紹介している記事が 10 位になりました。既存ツールを整理した上で、新しいライブラリを開発しています。
11 位: 85 クリック(#161)
11 位は、特徴量エンジニアリングの技法 Target Encoding でのスムージングに関して、既存ライブラリでの実装を解説している記事。論文の内容も踏まえて紹介しています。
11 位: 85 クリック(#201)
同率の 11 位に、Kaggle 参画に向けたアドバイスをまとめた記事が入りました。登録・提出・メダル獲得などの話題を扱っています。
13 位: 82 クリック(#193)
今年公開された Python のパッケージ管理ツール rye に関する記事が 13 位に入りました。Kaggle と同様の開発環境構築に取り組んでいます。
14 位: 80 クリック(#194)
14 位は、今年 10 月に出版された『The Kaggle Workbook 著名コンテストに学ぶ!競技トップレベルの思考と技術』(インプレス)。今年 2 月刊行の『The Kaggle Book:データ分析競技 実践ガイド&精鋭31人インタビュー』の続編です。
14 位: 80 クリック(#202)
同じく 14 位は、今年 10 月開催の「関西Kaggler会 交流会 in Osaka 2023#3」の発表資料がランクイン。特徴量の重要度を用いた特徴選択での注意点を検証しています。