u++の備忘録

【論文メモ】不均衡データの「頑健な」クラスタリングによる教師なしの異常検知

RDEC: Integrating Regularization into Deep Embedded Clustering for Imbalanced Datasets

f:id:upura:20181118153018p:plain

論文リンク

proceedings.mlr.press

プレスリリース

東芝:ニュースリリース (2018-11-14):教師なしで少量の不良品データを高精度に分類する深層学習技術を開発

著者/所属機関

Yaling Tao, Kentaro Takagi, Kouta Nakata / TOSHIBA

媒体

Proceedings of The 10th Asian Conference on Machine Learning, PMLR 95:49-64, 2018.

先行研究と比べてどこがすごい?

  • 実アプリケーションで一般的に発生する不均衡なデータの問題に焦点を絞った研究はほとんどなかった

技術や手法のキモはどこ?

  • ネットワーク正則化手法「virtual adversarial training (VAT)」と、クラスタリング手法「deep embedding clustering (DEC)」を統合

virtual adversarial training (VAT)

musyoku.github.io

提案手法(以下VAT)は、予測分布p(y∣x)を最も狂わすノイズr{v−adv}を計算により求め、p(y∣x+r{v−adv})をp(y∣x)に近づけることでモデルの頑健性を高める手法です。

データxから求まる予測分布p(y∣x,θ)と、ノイズrを加えたデータx+rから求まる予測分布p(y∣x+r,θ)に対し、両者のKL距離を最小化します。

qiita.com

各学習データ周辺における事後確率の分布を滑らかにすることでネットワークの汎化性能を向上させる手法です。Virtual Adversarial TrainingはAdversarial Trainingから派生した手法で、学習データの正解ラベルから計算した損失の代わりに事後確率同士の距離から計算した損失を用いることでラベルなしのデータも学習に活用する事ができます。

deep embedding clustering (DEC)

shunk031.me

高次元で規模の大きいデータセットに対しても効率的にクラスタリングできるよう特徴量を学習する

論文内での指摘

but it is sometimes sensitive to the initial location of centroids, especially in the case of imbalanced data, where the minor class has less chance to be assigned a good centroid.

  • RDECは、VATによる正規化を導入して、データの局所性に対するモデルの堅牢性を保証
  • VATは元の空間上で似ているデータを潜在空間上で近づけ、少数クラスのデータをまとめて分類を容易にする

どうやって有効だと検証した?

  • 均衡データ・不均衡データの両方でState-of-the-artのパフォーマンスを達成

議論はある?

VATや各ハイパーパラメータの効果を検証している

次に読むべき論文は?

virtual adversarial training (VAT)

[1507.00677] Distributional Smoothing with Virtual Adversarial Training

deep embedding clustering (DEC)

[1511.06335] Unsupervised Deep Embedding for Clustering Analysis

GitHub

github.com