使用自动编码器与变分自动编码器生成图像答案

【问题标题】：Image generation using autoencoder vs. variational autoencoder使用自动编码器与变分自动编码器生成图像
【发布时间】：2021-09-17 12:39:00
【问题描述】：

当我们使用卷积自动编码器生成新图像时，每次我们运行模型时模型会生成相同的图像吗？还是更愿意生成随机变化的图像？我认为自动编码器 (AE) 每次运行模型时都会生成相同的新图像，因为它将输入图像映射到潜在空间中的单个点。另一方面，变分自动编码器 (VAE) 将输入图像映射到一个分布。因此，如果我们需要一些随机变化的图像，我们需要使用 VAE，如果我们每次运行模型都需要相同的生成图像，我们使用 AE。这是真的？我的问题是： AE 会生成随机变化的图像吗？

【问题讨论】：

标签： autoencoder image-generation

【解决方案1】：

自动编码器首先将输入数据编码为某种潜在表示，然后使用该表示（瓶颈层）来重构相同的输入。我在 MNIST 数据上训练了一个自动编码器，并将数字编码成一个二维向量。网络对我绘制的数据进行了非常有用的表示。 Latent representation of MNIST digit

您可以看到，对于每个数字，潜在表示具有一定范围的值，例如零的潜在表示在 x 轴上的范围几乎从 -2 到 4，在 y 轴上的范围从 4 到 8。现在，如果您在该范围内采样一个随机二维随机向量并通过解码器运行它，您将得到一个零的随机图像。现在的问题是这是一个非常简单的案例。潜在向量有 64 维甚至更高，并且类别也更多。在这种情况下，我们需要对潜在向量的分布进行建模，以便对有效向量进行采样。否则，我们永远不会知道哪个潜在向量是有效的。所以自动编码器可能会给出随机样本，但它需要知道数据的分布以及我们在 VAE 中介绍的那个点。

【讨论】：