用于罕见事件的无监督深度人工神经网络分类器答案

【问题标题】：Unsupervised deep artificial neural network classifier for rare occurrences of an event用于罕见事件的无监督深度人工神经网络分类器
【发布时间】：2015-02-28 10:27:32
【问题描述】：

我构建并训练了一个无监督的深度人工神经网络来检测大型数据集中的高阶特征。

数据包含每日天气测量结果，我的深度网络最后一层的输出是 4 个神经元宽，希望代表高阶特征。现在我想检测一个非常罕见的事件（例如龙卷风）的概率。我挑出了导致龙卷风的数据点，但它们很少，大约10,000 out of 5,000,000 个数据点。

What's the best design for my tornado classifier?

创建一个仅由 10,000 个tornado 数据点组成的训练集，每次输出为 1？
创建一个由所有 5,000,000 个数据点组成的训练集，当没有龙卷风时输出 0，当有龙卷风时输出 1？但这可能永远无法预测龙卷风。
其他解决方案？

【问题讨论】：

a training set made of all 5,000,000 data points, with desired output 0 when there is no tornado, and 1 when there is one? [...] will likely never predict a tornado 我既不是天气专家，也不是神经网络专家，尽管我涉足后者。我很好奇你为什么不把这种方法视为可能的成功之路。
最初的经验测试似乎表明，大量的负数只是训练网络忽略正数。

标签： artificial-intelligence neural-network unsupervised-learning deep-learning

【解决方案1】：

我不明白您为什么要使用无监督学习。这听起来像是一个纯粹的监督学习任务。

您不应该为了预测罕见事件而丢弃数据。如果一个事件非常罕见，那么网络当然会预测它的概率非常低。因为确实如此。这被称为“偏见”。然而，网络的其余部分仍然应该努力学习区分正面和负面的例子。

如果您不喜欢这样，您可以尝试不同的损失函数。也许是一个损失函数，它对丢失的正例的惩罚比对负例的惩罚更大。或者您可以通过向数据集中添加更多正样本副本来改变网络偏差。

顺便问一下 Data Science Stack Exchange 会更好：https://datascience.stackexchange.com/

【讨论】：

我使用无监督学习从大量数据中检测高阶特征，并将这些特征提供给我使用监督学习训练的分类器。我认为这叫做半监督学习。你的回答肯定能说明我的问题。非常感谢。我不知道堆栈交换的数据科学部分的存在，但我下次一定会在那里发布。