查找给定数据集的概率，我可以说它是坏的概率是多少答案

【问题标题】：Find probability of the given data set, what probability i can say it is bad查找给定数据集的概率，我可以说它是坏的概率是多少
【发布时间】：2013-10-13 13:50:35
【问题描述】：

我有一个数据集的问题。在那里我有好的和坏的类别，在那个类别中，很少有元素可以是好的和坏的......

您可以查看我附加的 ven 图以获取视图和我拥有的数据集。如果你能帮助我，我真的很高兴。

我对概率和数学的东西真的很陌生，但是我有一个项目要做，在中间我必须找到一种方法来根据数据说给定的数据集是坏的还是好的。

我可以使用什么概率论？如何使用...请举一个使用我的数据集的例子。谢谢你

例如。如果我得到一个包含 A、D、E 元素的数据集……我能说它是坏的概率有多大。

【问题讨论】：

你尝试过朴素贝叶斯方法吗？
恕我直言，这个更适合math.stackexchange.com
是的....如果您正在考虑机器学习。但我也确实使用了 P(B|A u B)...但是我得到的概率不止一个。我不确定它是否正确

标签： probability probability-theory

【解决方案1】：

给出好/坏结果的函数称为分类函数。对于任何数据集，都有很多方法可以构建分类函数。例如，请参阅 Brian Ripley 的“模式识别和机器学习”。

一种容易理解的方法是所谓的二次判别式。很容易描述：（1）为每个类别（好、坏等）构建一个高斯密度。 (2) 输出新输入概率最大的类别。

(1) 只计算每个类别中数据的均值和协方差矩阵。这给了你 p(x | category)。

(2) 选择使 p(category | x) 最大的类别。注意 p(category | x) = p(x | category) p(category) / sum_i (p(x | category_i) p(category_i))，其中 p(category) 就是（类别中的数据数量）/（数量所有数据）。如果您使用对数，则可以稍微简化计算。

这样的函数可以用具有矩阵运算的编程语言（例如 Octave 或 R）的几行代码来构建。

【讨论】：