深度聚类 VAE 类方法总结（VAE、GMVAE、VaDE）

时间 2020-08-02 标签深度 vae 方法总结 gmvae vade

Variational AutoEncoders（VAE）

概述

VAE是将变分贝叶斯方法与神经网络提供的灵活性和可扩展性相结合的结果。web

变分自编码器是一个扭曲的自编码器。同自编码器的传统编码器和解码器网络一块儿，它们具备附加的随机层。算法

编码器网络以后的随机层使用高斯分布对数据进行采样，而解码器网络以后的随机层使用伯努利分布对数据进行采样。网络

与 GAN 同样，变分自编码器根据它们所接受的分布来生成图像和数字。VAE容许设置潜在的复杂先验，从而学习强大的潜在表征。架构

如今已经有了 VAE 的基本结构，问题在于如何对它们进行训练，由于训练数据和后验密度的最大可能性是难以处理的。经过最大化 log 数据可能性的下限来训练网络。所以，损失项由两部分组成：经过采样从解码器网络得到的生成损失，以及被称为潜在损失的 KL 发散项。框架

发生损耗确保了由解码器生成的图像和用于训练网络的图像是相同的，而且潜在损失可以确保后验分布 qφ(z|x) 接近于先验分布 pθ(z)。因为编码器使用高斯分布进行采样，因此潜在损耗测量潜在变量与单位高斯匹配的匹配程度。svg

一旦 VAE 接受训练，只能使用解码器网络来生成新的图像。函数

使用变分推理能够将棘手的推理问题转化为优化问题，从而扩展了可用的推理工具集，包括优化技术。尽管如此，经典变分推论的一个关键局限性是须要似然性和先验共轭，以即可以对大多数问题进行合理的优化，这反过来又会限制此类算法的适用性。变分自动编码器引入了使用神经网络来输出条件后验的方法（Kingma＆Welling，2013），所以能够经过随机梯度降低和标准反向传播来精确地优化变分推理目标。提出了这种称为从新参数化技巧的技术，旨在经过连续随机变量进行反向传播。尽管在正常状况下，若是没有蒙特卡罗方法，将没法经过随机变量进行反向传播，但能够经过肯定性函数和独立噪声源的组合来构造潜在变量，从而绕过这种状况。工具

详解VAE

生成模型-----进行分布之间的变换

一般咱们会拿 VAE 跟 GAN 比较，的确，它们两个的目标基本是一致的——但愿构建一个从隐变量 Z 生成目标数据 X 的模型，可是实现上有所不一样。

生成模型的难题就是判断生成分布与真实分布的类似度，由于咱们只知道二者的采样结果，不知道它们的分布表达式。性能

什么是VAE

首先咱们有一批数据样本 {X1,…,Xn}，其总体用 X 来描述，咱们本想根据 {X1,…,Xn} 获得 X 的分布 p(X)，若是能获得的话，那我直接根据 p(X) 来采样，就能够获得全部可能的 X 了（包括 {X1,…,Xn} 之外的），这是一个终极理想的生成模型了。学习

固然，这个理想很难实现，因而咱们将分布改一改：

这里咱们就不区分求和仍是求积分了，意思对了就行。此时 p(X|Z) 就描述了一个由 Z 来生成 X 的模型，而咱们假设 Z 服从标准正态分布，也就是 p(Z)=N(0,I)。若是这个理想能实现，那么咱们就能够先从标准正态分布中采样一个 Z，而后根据 Z 来算一个 X，也是一个很棒的生成模型。

其实，在整个 VAE 模型中，咱们并无去使用 p(Z)（先验分布）是正态分布的假设，咱们用的是假设 p(Z|X)（后验分布）是正态分布。

具体来讲，给定一个真实样本 Xk，咱们假设存在一个专属于 Xk 的分布 p(Z|Xk)（学名叫后验分布），并进一步假设这个分布是（独立的、多元的）正态分布。

VAE 是为每一个样本构造专属的正态分布，而后采样来重构。

那怎么找出专属于 Xk 的正态分布 p(Z|Xk) 的均值和方差呢？
神经网络来拟合出来

对应于上图咱们发现：Encoder 不是用来 Encode 的，是用来算均值和方差的。

分布标准化

让咱们来思考一下，根据上图的训练过程，最终会获得什么结果。

首先，咱们但愿重构 X，也就是最小化 D(X̂k,Xk)^2，可是这个重构过程受到噪声的影响，由于 Zk 是经过从新采样过的，不是直接由 encoder 算出来的。

显然噪声会增长重构的难度，不过好在这个噪声强度（也就是方差）经过一个神经网络算出来的，因此最终模型为了重构得更好，确定会想尽办法让方差为0。

而方差为 0 的话，也就没有随机性了，因此无论怎么采样其实都只是获得肯定的结果（也就是均值），只拟合一个固然比拟合多个要容易，而均值是经过另一个神经网络算出来的。

说白了，模型会慢慢退化成普通的 AutoEncoder，噪声再也不起做用。

这样不就白费力气了吗？说好的生成模型呢？

其实 VAE 还让全部的 p(Z|X) 都向标准正态分布看齐，这样就防止了噪声为零，同时保证了模型具备生成能力。

怎么理解“保证了生成能力”呢？若是全部的 p(Z|X) 都很接近标准正态分布 N(0,I)，那么根据定义：

这样咱们就能达到咱们的先验假设：p(Z) 是标准正态分布。而后咱们就能够放心地从 N(0,I) 中采样来生成图像了。

VAE本质结构

在 VAE 中，它的 Encoder 有两个，一个用来计算均值，一个用来计算方差，这已经让人意外了：Encoder 不是用来 Encode 的，是用来算均值和方差的，这真是大新闻了，还有均值和方差不都是统计量吗，怎么是用神经网络来算的？

事实上，我以为 VAE 从让普通人望而生畏的变分和贝叶斯理论出发，最后落地到一个具体的模型中，虽然走了比较长的一段路，但最终的模型实际上是很接地气的。

它本质上就是在咱们常规的自编码器的基础上，对 encoder 的结果（在VAE中对应着计算均值的网络）加上了“高斯噪声”，使得结果 decoder 可以对噪声有鲁棒性；而那个额外的 KL loss（目的是让均值为 0，方差为 1），事实上就是至关于对 encoder 的一个正则项，但愿 encoder 出来的东西均有零均值。

那另一个 encoder（对应着计算方差的网络）的做用呢？它是用来动态调节噪声的强度的。

直觉上来想，当 decoder 尚未训练好时（重构偏差远大于 KL loss），就会适当下降噪声（KL loss 增长），使得拟合起来容易一些（重构偏差开始降低）。

反之，若是 decoder 训练得还不错时（重构偏差小于 KL loss），这时候噪声就会增长（KL loss 减小），使得拟合更加困难了（重构偏差又开始增长），这时候 decoder 就要想办法提升它的生成能力了。

GMVAE（GAUSSIAN MIXTURE VARIATIONAL AUTOENCODERS）

以高斯混合做为先验分布研究变分自动编码器模型（VAE）的变体

本文中，提出了一种在VAE框架内执行无监督聚类的算法。为此，假设能够经过假设观测数据是从多模态先验分布中生成的假设来调整生成模型的无监督聚类，并相应地构建可使用从新参数化技巧直接优化的推理模型。。同时做者代表，VAE中的过分规范化问题会严重影响聚类的性能，而且能够用Kingma等人引入的最小信息约束来缓解这一问题。

概述

在常规VAE中，潜在变量的先验值一般是各向同性的高斯。这种先验的选择致使多元高斯的每一个维度被推向学习来自数据的单独的连续变化因子，这可能致使学习的表示被结构化和解缠结。虽然这容许更多可解释的潜在变量（Higgins等，2016），但高斯先验是有限的，由于学习的表示只能是单峰的，而且不容许更复杂的表示。结果，已经开发了对VAE的许多扩展，其中能够经过指定愈来愈复杂的先验来学习更复杂的潜在表示（Chung等人，2015; Gregor等人，2015; Eslami等人，2016）。

在本文中，咱们选择混合高斯先验做为先验，由于它是单峰高斯先验的直观扩展。若是咱们假设观察到的数据是从混合的高斯产生的，则推断数据点的类别等同于推断数据点是从哪一种潜势分布模式产生的。虽然这使咱们有可能将潜伏空间划分为不一样的类，但在此模型中进行推断并不是易事。众所周知，一般用于VAE的从新参数化技巧没法直接应用于离散变量。已经提出了几种估计离散变量梯度的可能性（Glynn，1990; Titsias＆Lázaro-Gredilla，2015）。 Graves（2016）还提出了一种经过GMM反向传播的算法。相反，咱们代表，经过调整标准VAE的体系结构，能够经过从新参数化技巧经过标准反向传播来优化咱们的高斯混合变分自编码器（GMVAE）的变化下限估计量，从而使推理模型保持简单。

生成和识别模型

高斯混合变分自动编码器（GMVAE）的图形模型，显示了生成模型（左）和变体族（右）:

识别模型的推论

用变分推理目标（即对数证据下限（ELBO））训练生成模型，能够将其写为

咱们将下限中的术语分别称为重构术语，条件先验条件，w先验条件和z先验条件。

离散潜在变量的KL COST

咱们的ELBO中最不常见的术语是z优先级术语。经过询问x与w生成的每一个聚类位置相距多远，z后验直接从x和w的值计算聚类分配几率。所以，z先验项能够经过同时操纵聚类的位置和编码点x来减少z后验和统一先验之间的KL散度。凭直觉，它会尝试经过最大程度地重叠聚类，而后将均值靠拢在一块儿来合并聚类。与其余KL正则化术语类似，该术语与重建术语存在冲突，随着训练数据量的增长，预计该术语将被过分使用。

过分监管问题

在VAE文献中已屡次描述了正则化项可能对VAE训练产生的压倒性影响（Bowman等人，2015;Sønderby等人，2016; Kingma等人，2016; Chen等人，2016b）。因为先验的强大影响，得到的潜在表示经常被过分简化，而且不能很好地表示数据的基础结构。

到目前为止，有两种主要的方法能够克服这种影响：一种解决方案是在训练过程当中退火KL项，方法是容许重建项训练自动编码器网络，而后再缓慢整合KL项的正则化（Sønderby等人，2016）。另外一种主要方法是经过设置一个临界值来修改目标函数，该临界值会在低于某个阈值时消除KL项的影响（Kingma等，2016）。正如咱们在下面的实验部分所示，过分规整化问题在GMVAE群集的分配中也很广泛，并在大型简并群集中表现出来。虽然咱们显示了Kingma等人建议的第二种方法。（2016年）确实确实减轻了这种合并现象，找到解决过分正规化问题的方法仍然是一个充满挑战的开放问题。

实验

咱们的实验的主要目的不只是评估咱们提出的模型的准确性，并且要了解构建有意义的，差别化的潜在数据表示所涉及的优化动力。

本节分为三个部分：
1.首先，咱们在一个低维综合数据集中研究推理过程，并特别关注过分规则化问题如何影响GMVAE的聚类性能以及如何缓解该问题；

2.而后，咱们根据MNIST无监督聚类任务评估模型；

3.最后，咱们显示了由模型生成的图像，这些图像以潜在变量的不一样值为条件，这说明GMVAE能够学习解开的，可解释的潜在表示。

在本节中，咱们将使用如下数据集：
•综合数据：咱们建立一个模仿约翰逊等人介绍的综合数据集。（2016），这是一个2D数据集，具备从5个圆的弧线建立的10,000个数据点。

•MNIST：标准的手写数字数据集，由28x28灰度图像组成，由60,000个训练样本和10,000个测试样本组成（LeCun等，1998）。

•SVHN：门牌号的32x32图像集合（Netzer等，2011）。咱们使用标准版和额外的训练集的裁剪版，总共增长了大约600,000张图像。

SYNTHETIC DATA

咱们经过绘制等式中描述的z先验项的大小来量化聚类性能。公式 6在训练中。能够将这一数量视为衡量不一样群集重叠程度的一种度量。因为咱们的目标是在潜在空间中实现有意义的聚类，所以咱们但愿随着模型学习单独的聚类，该数量会降低。

可是，根据经验，咱们发现状况并不是如此。咱们的模型收敛以将全部类合并到相同的大型群集中的潜在表示，而不是表示有关不一样群集的信息，如图5和6所示。 2d和3a。结果，每一个数据点均可能属于任何一个群集，这使得咱们的潜在表示形式对类结构彻底无用。

咱们认为，这种现象能够解释为z先验项过分正规化的结果。鉴于此数量是由下限中的KL项的优化推进的，所以达到最大可能值为零，这与经过训练以确保有关类的信息进行编码而减小的相反。咱们怀疑先验在初始训练阶段的影响力太大，而且将模型参数驱动到较差的局部最优值，而该最优值随后很难被重建项排除掉。

这种观察从概念上讲与常规VAE中遇到的过分规范化问题很是类似，所以咱们假设采用相似的启发式方法能够缓解这一问题。咱们在图2f中显示，经过使用先前提到的对Kingma等人提出的下界的修改。（2016），咱们能够避免由z优先级引发的过分规范化。这能够经过将z优先级以前的成本保持在恒定值λ直到超过该阈值来实现。正式地，修改后的z优先级术语写为：

此修改抑制了z优先级合并全部群集的初始效果，所以容许它们散布，直到z优先级成本中的成本足够高为止。在这一点上，其效果已大大下降，而且主要限于合并足够重叠的单个群集。这能够在图1和2中清楚地看到。 2e和2f。前者显示的是未考虑z先验成本的集群，所以集群已经可以扩展。一旦激活了z优先级，就能够合并不是常靠近的群集，如图2f所示。

最后，为了说明使用神经网络进行分布转换的好处，咱们将模型（图2c）与常规GMM（图2c）在数据空间中观察到的密度进行了比较。如图所示，与常规GMM相比，GMVAE能够提供更丰富，所以更准确的表示形式，所以在建模非高斯数据方面更为成功。

图2：合成数据集的可视化：（a）数据在5维模式下分布在二维数据空间上。（b）GMVAE学习密度模型，该模型可使用数据空间中非高斯分布的混合来对数据建模。（c）因为限制性高斯假设，GMM也没法表示数据。（d）然而，GMVAE受过分正则化的影响，在看潜在空间时可能致使极小的最小值。（e）使用对ELBO的修改（Kingma et al。，2016）可以使星团扩展。（f）随着模型收敛，z优先级项被激活，并经过合并过多的聚类在最后阶段对聚类进行正则化。

图3：z先验项的图：（a）因为没有信息约束，GMVAE会过分规范化，由于它收敛到一个较差的最优值，该最优值将全部群集合并在一块儿以免KL成本。（b）在达到阈值（虚线）以前，能够先关闭z先验项的梯度，以免将簇拉在一块儿（有关详细信息，请参见文本）。到达到阈值时，群集已充分分离。此时，来自z先验项的激活梯度仅将很是重叠的簇合并在一块儿。即便激活了它的梯度后，z先验的值仍会继续减少，由于它会被其余项所压倒，从而致使有意义的聚类和更好的最佳化。

无监督的图像聚类

如今，咱们评估模型在图像聚类任务中表示数据中离散信息的能力。咱们在MNIST训练数据集上训练GMVAE，并在测试数据集上评估其聚类性能。为了将GMVAE提供的聚类分配与真实图像标签进行比较，咱们遵循Makhzani等人的评估协议。（2015），为清楚起见，在此进行总结。在这种方法中，咱们找到属于簇i的几率最高的测试集元素，并将该标签分配给属于i的全部其余测试样本。而后对全部群集i = 1，…，K重复此操做，并将分配的标签与真实标签进行比较，以得到无监督的分类错误率。

在合成数据集上训练GMVAE时，虽然咱们观察到了聚类退化问题，但MNIST数据集并未出现该问题。所以，咱们直接使用ELBO优化了GMVAE，无需进行任何修改。表1总结了在MNIST基准上使用GMVAE以及其余最新方法得到的结果。除对抗性自动编码器（AAE）以外，咱们得到的分类得分与最新技术1至关。。咱们怀疑其缘由再次与VAE目标中的KL条款有关。正如Hoffman等人所指出的，对抗性自动编码器目标的关键区别在于，ELBO中的KL项被对抗性损失所取代，从而使潜伏空间得以更谨慎地操纵（Hoffman＆Johnson，2016）。这些实验中使用的网络体系结构的详细信息能够在附录A中找到。

从经验上，咱们观察到，增长蒙特卡洛样本的数量和聚类的数量可以使GMVAE对初始化更鲁棒，更稳定，如图4所示。若是使用较少的样本或聚类，则GMVAE有时会收敛得更快甚至更差。局部最小值，缺乏某些数据分发模式。

表1：具备不一样簇数（K）的MNIST的无监督分类准确性（报告为正确标签的百分比）

图4：具备不一样数量的聚类（K）和蒙特卡洛样本（M）的聚类精度：仅几个时期以后，GMVAE收敛为一个解。增长群集数量可大大提升解决方案的质量。

图像生成

到目前为止，咱们认为GMVAE会拾取数据集中的天然聚类，而且这些聚类与图像的实际类别共享某种结构。

如今，咱们在MNIST上用K = 10训练GMVAE，以代表潜在空间分布中的学习成分实际上表明了有意义的数据属性。首先，咱们注意到从GMVAE采样时，存在两种随机性来源，即

1.从先验采样w，它将经过神经网络β生成x的均值和方差；

2.从由w和z肯定的高斯混合中采样x，这将经过神经网络θ生成图像。

在图5a中，咱们经过设置w = 0并从产生的高斯混合中屡次采样来探索后一种选择。图5a中的每一行对应于来自高斯混合的不一样成分的样本，而且能够清楚地看到，来自相同成分的样本始终如一地产生来自相同数字类别的图像。这证明了学习到的潜在表示包含分化良好的簇，每位数正好一个。另外，在图5b中，咱们经过平滑地改变w并从同一份量采样来探索所生成图像对高斯混合份量的敏感性。咱们看到，虽然z可靠地控制了生成图像的类别，可是w设置了数字的“样式”。
最后，在图6中，咱们显示了从在SVHN上训练的GMVAE采样的图像，代表GMVAE将视觉上类似的图像聚在一块儿。

图5：生成的MNIST样本：（a）每行包含10个随机生成的样本，这些样原本自高斯混合物的不一样高斯份量。 GMVAE学习了有意义的生成模型，其中离散潜变量z以无监督的方式直接对应于数字值。（b）经过遍历w空间生成的样本，w的每一个位置对应于数字的特定样式。

图6：生成的SVHN样本：每行对应于从不一样的高斯份量随机生成的10个样本。 GMVAE将视觉上类似的图像分组在一块儿。

VaDE

在本文中，提出了变分深度嵌入（VaDE），这是一种在变数自动编码器（VAE）框架内的新型无监督生成聚类方法。

具体来讲，VaDE使用高斯混合模型（GMM）和深度神经网络（DNN）对数据生成过程进行建模：
1）GMM选择一个聚类；
2）从中生成潜在嵌入；
3）而后，DNN将潜在的嵌入解码为可观察的。
VaDE的推论是以一种变体的方式进行的：使用不一样的DNN编码可观察到的潜在嵌入，所以可使用随机梯度变异贝叶斯（SGVB）估计器和从新参数化技巧来优化证据下界（ELBO）。。与强基线的定量比较包括在本白皮书中，实验结果代表，VaDE在各类模式下的5个基准上均明显优于最新的聚类方法。此外，根据VaDE的生成性质，咱们展现了它能够为任何指定簇生成高度真实的样本的能力，而无需在训练过程当中使用监督信息。

概述

在本文中，咱们提出了一个聚类框架，即变种深度嵌入（VaDE），它结合了VAE Kingma和Welling [2014]以及用于聚类任务的高斯混合模型。

VaDE经过GMM和DNN对数据生成过程进行建模：
1）GMM拾取了一个集群；
2）从中采样潜在表示z；
3）DNN 将z解码为观测值x。
此外，经过使用另外一个DNN 将观测数据x编码为潜在嵌入z来优化VaDE，以即可以使用随机梯度变化贝叶斯（SGVB）估计器和从新参数化技巧Kingma and Welling [2014]来最大化证据。下界（ELBO）。 VaDE经过将高斯混合先验替换单个高斯先验来归纳VAE。
所以，VaDE在设计上更适合于群集任务。

具体来讲，本文的主要贡献是：
• 咱们提出了一个无监督的生成聚类框架VaDE，该框架将VAE和GMM组合在一块儿。

• 咱们展现了如何使用SGVB估计器和从新参数化技巧经过最大化ELBO来优化VaDE。

• 实验结果代表，VaDE在各类模式的5个数据集上的表现优于最新的聚类模型；

• 咱们证实，VaDE能够为任何指定的簇生成高度逼真的样本，而无需在训练过程当中使用监督信息。

VaDE的示意图如图1所示。

图1：VaDE的示意图。 VaDE的数据生成过程以下：
1）从GMM模型中选择一个聚类；
2）根据选取的簇生成潜在嵌入；
3）DNN f（z;θ）将潜在的嵌入解码为可观察的x。编码器网络g（x;）用于最大化VaDE的ELBO。

Variational Deep Embedding

生成过程

因为VaDE是一种无监督的聚类生成方法，所以咱们在此首先描述VaDE的生成过程。具体来讲，假设有K个簇，则经过如下过程生成观察样本x∈RD：

变化下界

了解VaDE的ELBO

图2：在MNIST上进行训练时，历元数上的聚类精度。咱们还展现了DEC，AAE，LDMGI和GMM的最佳性能。最好以彩色查看图形。

为了证实等式17中KL项的重要性，咱们首先训练具备与VaDE相同网络架构的自动编码器（AE），而后将GMM应用于学习到的AE的潜在表示，由于VaDE模型没有KL术语几乎等同于AE。咱们将此模型称为AE + GMM。咱们还展现了直接在观测空间（GMM）上使用GMM，在观测空间上使用VAE，而后在VAE（VAE + GMM）4的潜在空间上使用GMM的性能，以及LDMGI Yang等的性能。。 [2010]，AAE Makhzani等。 [2016]和DEC Xie等人。 [2016]，图2。VaDE优于AE + GMM（无KL项）和VAE + GMM的事实，充分证实了规范化条款的重要性以及经过VaDE共同优化VAE和GMM的优点。咱们还提供了集群的插图及其经过w.r.t.进行更改的方式。图3中MNIST数据集上的训练纪元，其中t-SNE Maaten和Hinton [2008]将潜在表示z映射到2D空间。

图3：有关在MNIST训练期间VaDE在潜在空间中如何汇集数据的图示。不一样的颜色表示不一样的地面真相类别，而且在相应的纪元处的聚类精度在括号中报告。很明显，潜在的表示愈来愈适合训练期间的聚类，这也能够经过提升聚类精度来证实。

实验

数据集说明

如下数据集用于咱们的经验实验。

•MNIST：MNIST数据集由70000个手写数字组成。图像居中，尺寸为28 x 28像素。咱们将每一个图像重塑为784维矢量。

•HHAR：异质性人类活动识别（HHAR）数据集包含来自智能手机和智能手表的10299条传感器记录。全部样本都分为6类人类活动，每一个样本的维度均为561。

•路透社：在原始的路透数据集中，大约有810000个以类别树标记的英语新闻报道。在DEC以后，咱们使用了4个根目录类别：公司/工业，政府/社会，市场和经济学做为标签，并丢弃了具备多个标签的全部文档，这产生了685071条数据集。咱们计算了2000个最经常使用词的tf-idf功能，以表示全部文章。与DEC类似，因为某些频谱聚类方法（例如LDMGI）没法扩展到完整的路透数据集，所以会抽取10000个文档的随机子集，称为Reuters-10K。

•STL-10：STL-10数据集由96 x 96像素大小的彩色图像组成。有10个类别，每一个类别有1300个示例。因为直接从高分辨率图像的原始像素进行聚类至关困难，所以咱们经过ResNet-50 He等人提取了STL-10图像的特征。 [2016]，而后将其用于测试VaDE和全部基准的性能。更具体地说，咱们在ResNet-50的最后一个特征图上应用了3×3的平均池，特征的维数为2048。

实验装置

如前所述，VaDE采用与DEC相同的网络体系结构进行公平比较。具体来讲，公式1和公式10中f和g的体系结构分别为10-2000-500-500-D和D-500-500-2000-10，其中D为输入维数。全部层均已彻底链接。 Adam优化器Kingma和Ba [2015]用于最大化等式9的ELBO，最小批量大小为100。MNIST，HHAR，Reuters-10K和STL-10的学习率为0.002，而且每10个周期减小衰减率为0.9，路透社的学习率为0.0005，每一个时期的衰减率为0.5。至于第3.1节中的生成过程，MNIST数据集使用多元伯努利分布，而其余则使用多元高斯分布。相似于DEC，每一个数据集的类数固定为类数。咱们将在4.6节中更改群集的数量。

与其余基于VAE的模型Kingma和Salimans [2016]类似； Sønderby等。 [2016]，VaDE遭受的问题是，方程17中的重建项在训练开始时太弱了，以致于模型可能会卡在不良的局部极小值或鞍点中，所以很难逃脱。在这项工做中，可使用预训练来避免此问题。具体来讲，咱们使用堆叠式自动编码器对网络f和g进行预训练。而后，全部数据点都经过预训练网络g投影到潜在空间z中，在该网络中，应用GMM初始化{π，μc，σc}，c∈{1，…，K}的参数。在实践中，不多有预训练的时期足以提供VaDE的良好初始化。咱们发现，VaDE对预训练后的超参数不敏感。所以，咱们没有花费不少精力来调整它们。

定量比较

在DEC以后，VaDE的性能由无监督聚类精度（ACC）来衡量，其定义为：

其中N是样本总数，li是真实标签，ci是模型得到的聚类分配，M是聚类分配和标签之间全部可能的一对一映射的集合。能够经过使用KuhnMunkres算法Munkres [1957]得到最佳映射。与DEC类似，咱们在初始化全部聚类模型时执行10次随机重启，并选择具备最佳目标值的结果。至于LDMGI，AAE和DEC，咱们使用与其原始论文相同的配置。表2比较了全部数据集中VaDE与其余基准的性能。能够看出，VaDE在全部数据集上的表现都优于全部这些基线。具体来讲，在MNIST，HHAR，Reuters-10K，Reuters和STL-10数据集上，VaDE的ACC分别为94.46％，84.46％，79.83％，79.38％和84.45％，相对DEC的表现要好，相对增加率为12.05％，5.76 ％，7.41％，4.96％和4.75％。

咱们还将VaDE与SB-VAE Nalisnick和Smyth [2016]和DLGMM Nalisnick等进行了比较。 [2016]关于潜在表示的区分能力，由于这两个基准不能完成聚类任务。在SB-VAE以后，经过在MNIST的潜在表示上运行k最近邻居分类器（kNN）来评估模型的潜在表示的区别力。表3显示了潜在表示形式下kNN分类器的错误率。能够看出，VaDE的性能明显优于SB-VAE和DLGMM5。

请注意，尽管VaDE能够学习样本的判别式表示，可是VaDE的训练是彻底不受监督的。所以，咱们没有将VaDE与其余监督模型进行比较。

经过VaDE生成样本

VaDE比DEC Xie等人的一大优点。 [2016]认为它本质上是一个生成聚类模型，能够为任何指定的聚类（类）生成高度逼真的样本。在本节中，咱们将对VaDE，GMM，VAE和最新的生成方法InfoGAN Gan等人的生成样本进行定性比较。 [2016]。

图4分别说明了GMM，VAE，InfoGAN和VaDE为MNIST的0至9类生成的样本。能够看出，VaDE生成的数字是平滑且多样化的。请注意，没法指定来自VAE的样本类别。咱们还能够看到，VaDE的性能与InfoGAN至关。

图4：由GMM，VAE，InfoGAN和VaDE生成的数字。除（b）之外，同一行中的数字来自同一集群。

可视化学习的嵌入

在本节中，咱们将MNIST数据集上的VAE，DEC和VaDE的学习表示形式可视化。为此，咱们使用t-SNE Maaten和Hinton [2008]将潜在表示z的维数从10减少到2，并在图5中绘制2000个随机采样的数字。图5的第一行说明了地面-每一个数字的真实标签，其中不一样的颜色表示不一样的标签。图5的第二行演示了聚类结果，其中正确聚类的样本以绿色着色，而错误聚类的样本以红色着色。

从图5中能够看到，使用单个高斯先验的原始VAE在聚类任务中表现不佳。还能够观察到，因为不正确聚类的样本数量较少，VaDE所学习的嵌入要比VAE和DEC更好。此外，经过VaDE错误地聚类的样本大多位于每一个聚类的边界，一般会在其中出现使人困惑的样本。相反，许多错误地聚类的DEC样本出如今聚类的内部，这代表DEC没法保留数据的固有结构。图5中还标出了DEC和VaDE的一些错误。

图5：分别由VAE，DEC和VaDE在MNIST上学习的嵌入的可视化。第一行显示了每一个数字的真实标签，其中不一样的颜色表示不一样的标签。第二行展现了聚类结果，正确聚类的样本用绿色上色，不正确的样本用红色上色。 GT：4表示数字的真实标签为4，DEC：4表示DEC将数字分配给4的簇，而VaDE：4表示经过VaDE进行的分配为4，依此类推。最好以彩色查看图形。

The Impact of the Number of Clusters

到目前为止，VaDE的聚类数设置为每一个数据集的类数，这是一个先验知识。为了演示VaDE做为无监督聚类模型的表示能力，咱们特地选择了不一样数量的聚类K。图6中的每一行说明了在MNIST数据集上由VaDE分组的聚类的样本，其中K设置为图7和14。分别参见图6（a）和图6（b）。咱们能够看到，若是K小于类的数目，则具备类似外观的数字将聚在一块儿，例如图6（a）中的9和四、3和8。另外一方面，若是K大于类别数，则某些数字将被VaDE划分为子类别，例如图6（b）中的0较粗的数字和0较细的数字，以及1和斜线1。
图6：具备不一样数量集群的MNIST集群。咱们按行说明属于每一个群集的样本。