RDEC: Integrating Regularization into Deep Embedded Clustering for Imbalanced Datasets
- ネットワーク正則化手法「virtual adversarial training (VAT)」と、クラスタリング手法「deep embedding clustering (DEC)」を統合したクラスタリング手法「regularized deep embedding clustering (RDEC)」を提案
- 不均衡データのクラスタリングに効果的で、教師なしの異常検知に応用できる
論文リンク
プレスリリース
東芝:ニュースリリース (2018-11-14):教師なしで少量の不良品データを高精度に分類する深層学習技術を開発
著者/所属機関
Yaling Tao, Kentaro Takagi, Kouta Nakata / TOSHIBA
媒体
Proceedings of The 10th Asian Conference on Machine Learning, PMLR 95:49-64, 2018.
先行研究と比べてどこがすごい?
- 実アプリケーションで一般的に発生する不均衡なデータの問題に焦点を絞った研究はほとんどなかった
技術や手法のキモはどこ?
virtual adversarial training (VAT)
提案手法(以下VAT)は、予測分布p(y∣x)を最も狂わすノイズr{v−adv}を計算により求め、p(y∣x+r{v−adv})をp(y∣x)に近づけることでモデルの頑健性を高める手法です。
データxから求まる予測分布p(y∣x,θ)と、ノイズrを加えたデータx+rから求まる予測分布p(y∣x+r,θ)に対し、両者のKL距離を最小化します。
各学習データ周辺における事後確率の分布を滑らかにすることでネットワークの汎化性能を向上させる手法です。Virtual Adversarial TrainingはAdversarial Trainingから派生した手法で、学習データの正解ラベルから計算した損失の代わりに事後確率同士の距離から計算した損失を用いることでラベルなしのデータも学習に活用する事ができます。
deep embedding clustering (DEC)
論文内での指摘
but it is sometimes sensitive to the initial location of centroids, especially in the case of imbalanced data, where the minor class has less chance to be assigned a good centroid.
- RDECは、VATによる正規化を導入して、データの局所性に対するモデルの堅牢性を保証
- VATは元の空間上で似ているデータを潜在空間上で近づけ、少数クラスのデータをまとめて分類を容易にする
どうやって有効だと検証した?
議論はある?
VATや各ハイパーパラメータの効果を検証している
次に読むべき論文は?
virtual adversarial training (VAT)
[1507.00677] Distributional Smoothing with Virtual Adversarial Training
deep embedding clustering (DEC)
[1511.06335] Unsupervised Deep Embedding for Clustering Analysis