Weka 如何计算 J48 和其他分类器中的输出预测？答案

【问题标题】：How does Weka calculate the output predictions in J48 and other classifier?Weka 如何计算 J48 和其他分类器中的输出预测？
【发布时间】：2016-03-01 04:42:53
【问题描述】：

我在 Weka 中使用了 J48 分类器的输出预测，并通过预测（概率）得到了结果。由于我需要在研究中使用这些预测数字，我需要知道 weka 是如何计算这些数字的？公式是什么？是否为每个分类器指定？

【问题讨论】：

标签： weka

【解决方案1】：

公式是什么？

Weka 的 J48 分类器是 C4.5 algorithm 的实现。

我需要知道 weka 是如何计算这些数字的？

您可以在J48.java 和weka.classifiers.trees.j48 package 中找到实现细节。

【讨论】：

【解决方案2】：

除了Jan Eglinger回答。

J48 分类器是 Weka 对臭名昭著的 C4.5 决策树分类器的实现，这是一种基于 ID3 的分类算法，使用信息熵进行分类。

训练数据是一组S = {s_1, s_2, ...} 已经分类的样本。每个样本s_i由一个p维向量(x_{1,i}, x_{2,i}, ...,x_{p,i})组成，其中x_j代表样本的属性值或特征，以及s_i所属的类别。

在树的每个节点上，C4.5 选择最有效地将其样本集拆分为一个或另一个类中丰富的子集的数据属性。分裂标准是归一化信息增益（熵差）。选择具有最高归一化信息增益的属性来做出决定。然后 C4.5 算法在较小的子列表上重复。

这个算法有几个基本情况。

列表中的所有样本都属于同一类。当这发生时，它只是为决策树创建一个叶节点，说选择那个班级。
这些功能都不提供任何信息增益。在这种情况下， C4.5 使用预期的在树的上层创建一个决策节点类的价值。
遇到了以前看不见的类的实例。同样，C4.5 创建使用期望值在树上更高的决策节点。

您可以在 Weka Api 包中找到增益和熵的信息。为此，您需要开始配音 java weka api 并完成每个步骤。

一般来说，如果您不担心算法如何在内部使用高级数学进行工作。尝试计算信息增益和熵，并在你的研究中解释它们，除了决策树，你有这两种方法来计算它们的值。

【讨论】：

感谢 Jan Eglinger 和 Max Rattan 提供的友好信息。但是，我想我没有清楚地问我的问题。其实我只是想多了解一下weka以csv格式计算出来的概率输出。如您所知，在 Weka 分类的输出中，我们还可以获得每个实例的 0 到 1 之间的一些预测（确定性）数。我正在寻找 weka 用来计算这些数字的公式或方法。再次感谢