u++の備忘録

【Weekly Kaggle News 5 周年】記事閲覧数ランキング 2024

Kaggle Advent Calendar 2024」の 20 日目の記事です。

ニューズレター「Weekly Kaggle News」が本日 5 周年を迎えました。日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱っています。週次で毎週金曜日に更新しており、最新は本日配信予定の第 262 号です。メール配信の性質上あまり実感が湧きづらいのですが、購読者数は継続的に増加し 2850 人程度になりました。

それでは、今年発行の Weekly Kaggle News 経由で閲覧された URL のランキング結果を紹介します。単純なクリック回数なので、購読者数が増えている直近の回が有利な条件になっています。なお過去分もランキングを公開しています。

見落としていた記事があれば、ぜひご覧ください。

1 位: 132 クリック(#230)

最もクリック数が多かったのは、系列データを扱った Kaggle コンペと上位解法を振り返りながら、系列データの深層学習モデリングを俯瞰している発表資料でした。 今年開催されたデータ種別の Kaggle コンペについては、12 月 1 日に公開した「【Kaggle Advent Calendar 2024】2024 年に開催された Kaggle コンペ振り返り」で紹介しています。

2 位: 128 クリック(#241)

テーブルデータの前処理を題材にしたオブジェクト指向のコーディング術に関する記事が 2 位に入りました。 データと処理をクラスに記述することで、可読性・再利用性・保守性を向上させる考え方を紹介しています。

zenn.dev

3 位: 127 クリック(#220)

3 位もコーディング術に関する記事でした。 可読性の高いコードを書くために開発者の意図をコード上で表現する方法を紹介しており、命名規則・型ヒント・クラス設計などの話題を扱っています。

qiita.com

4 位: 118 クリック(#221)

4 位は、常に注目されている「決定木 vs 深層学習」の話題です。 論文「Why do tree-based models still outperform deep learning on typical tabular data?」の解説記事で、テーブルデータ分析での決定木と深層学習の性能を比較しています。

voice.pkshatech.com

5 位: 109 クリック(#222)

5 位は、こちらも常に話題性が高い環境構築に関する記事でした。 Docker を用いた機械学習環境の構築方法について、利点や使い方などを解説しています。

zenn.dev

6 位: 109 クリック(#236)

深層ニューラルネットワークの高速化に関する書籍。 量子化・枝刈り・蒸留・低ランク近似・モデルマージなどの手法や背景にある理論を解説しています。

深層ニューラルネットワークの高速化 (ML Systems)

7 位: 107 クリック(#250)

大規模言語モデル(LLM)の処理の効率化に関する解説資料。 単一モデルでの計算効率の改善や、推論処理のまとめ上げといった話題が紹介されています。

8 位: 105 クリック(#224)

表形式データセットを高速に処理する「Polars」と、データ検証のための「Pandera」を紹介している発表資料。 2 つのライブラリの概要を説明しています。

9 位: 103 クリック(#231)

Python の処理速度に焦点を当てた書籍。 組み込み機能、CPython、GPUの利用など、さまざまな手法が取り上げられています。

www.shoeisha.co.jp

10 位: 102 クリック(#212)

1 月 9 日までの期間限定で半額になっていた『The Kaggle Book:データ分析競技 実践ガイド&精鋭31人インタビュー』(インプレス)の書籍ページ。 1 月 5 日配信号で紹介されました。

tatsu-zine.com

11 位: 102 クリック(#240)

テーブルデータを処理する「Pandas」ライブラリから「Polars」ライブラリへの書き換えに関する発表資料。 高速化の実例と遭遇した課題を紹介しています。

12 位: 101 クリック(#214)

アンサンブル手法の強み・弱みを「個々のモデルの精度」「モデルの多様性」「予測結果を混合する際に発生する情報の損失」の観点で要因分析するライブラリ。 国際会議「ICML2022」に採択された論文の実装です。

github.com

13 位: 101 クリック(#235)

推薦アルゴリズムに関する入門記事。実践編として、コンペを題材にしたソースコードも掲載しています。

qiita.com

14 位: 98 クリック(#236)

回帰・分類問題の特徴的な損失関数を解説している発表資料。深層学習ライブラリ「PyTorch」での実装も紹介しています。

15 位: 97 クリック(#213)

時系列予測ライブラリ「Prophet」を用いた分析の流れを紹介している記事。題材として Kaggle にアップロードされている株価データを利用しています。

zenn.dev

16 位: 91 クリック(#229)

グラフニューラルネットワーク』(講談社)の著者による書籍の紹介資料。グラフ構造による定式化や、グラフニューラルネットワークの導入・応用などを解説しています。

17 位: 92 クリック(#217)

2024 年 2 月時点で利用頻度の高そうな Python の新機能・ライブラリ・ツールなどを紹介している記事。 環境構築や型ヒント、データクラスなどを取り上げています。

tech.uzabase.com

18 位: 91 クリック(#251)

10 月 1 日発行の電子情報通信学会誌に掲載された記事。 著者の所属機関のサイトで、PDF が無料公開されています。

実務にデータ分析コンペは有効か

19 位: 90 クリック(#212)

医療分野での AI 研究・応用の最新動向をまとめた資料。Kaggle でも医用画像を題材としたコンペが数多く開催されています。

20 位: 88 クリック(#258)

様々な実験設定で、表形式データのライブラリごとの処理速度を比較している記事。GPU の有無による推奨ライブラリも紹介しています。

zenn.dev

21 位: 87 クリック(#228)

畳み込みニューラルネットワーク(CNN)と Vision Transformer(ViT)を通して、画像認識の基礎を実践例とともに解説する書籍。Python(PyTorch)のサンプルコードも提供しています。

www.ohmsha.co.jp

22 位: 87 クリック(#258)

大規模言語モデルの登場までの自然言語処理の潮流を解説している資料。現状苦手とされている処理や課題についても紹介しています。

23 位: 87 クリック(#252)

Kaggle のコード提出形式コンペを題材に、開発効率の向上を見据えて、ブラウザをなるべく使わない作業フローに関する記事。コードや学習済みモデルのアップロードや、ライブラリの管理などの方法を紹介しています。

ho.lc

24 位: 86 クリック(#224)

Kaggle Master の Q_takka さんによる Kaggle と開発実務の違いに関する発表資料。プロジェクト進行における企画や制約などの観点を紹介しています。

25 位: 85 クリック(#221)

Kaggle Grandmaster の senkin13 さんによる発表資料。コンペ選び、モチベーション、情報収集、最終提出選択の戦略を紹介しています。