如何解释一个热编码变量的自动编码器异常 SE？答案

【问题标题】：How to interpret Autoencoder anomoly SE for one hot encoded variables?如何解释一个热编码变量的自动编码器异常 SE？
【发布时间】：2017-06-08 16:54:06
【问题描述】：

这是一些可重现的代码。我想知道当特征被单热编码时，每个特征的 SE 计算是什么。如果我要自己尝试：

看起来有些 SE 是 1，我猜这意味着重建 100% 确定这是一回事，但实际上是另一回事。对于分数误差，它们是否代表了softmax分类器分配给类别的概率的不同程度的错误？

library(h2o)
art <- data.frame(a = c("a","b","a","c","d","e","g","f","a"),
              b = c("b","c","d","e","b","c","d","e","b"),
              c = c(4,3,2,5,6,1,2,3,5))

dl = h2o.deeplearning(x = c("a","b","c"), training_frame = as.h2o(art),
                      autoencoder = TRUE,
                      reproducible = T,
                      seed = 1234,
                      hidden = c(1), epochs = 1)
sus.anon = h2o.anomaly(dl, as.h2o(art), per_feature=TRUE)

【问题讨论】：

标签： r h2o autoencoder

【解决方案1】：

我不了解 h2o 自动编码器，但在我看来，自动编码器无法与 one-hot 编码变量一起正常工作。我什么都试过了。我没有尝试的是“使用 Gumbel-Softmax 估计器的分类变分自动编码器”（https://github.com/ericjang/gumbel-softmax）。

【讨论】：