【发布时间】:2015-06-26 10:52:33
【问题描述】:
我有一个具有数字和分类属性的数据集。我正在weka中通过旋转森林进行分类。我知道旋转森林只适用于数值属性,因为它计算 PCA 和其他东西。
我的期望是我们会忽略分类属性,但是当我使用整个数据集进行分类以及从数据集中删除分类属性时,性能结果会有所不同。
weka 对旋转森林方法中的分类属性做了什么?
【问题讨论】:
标签: classification weka
我有一个具有数字和分类属性的数据集。我正在weka中通过旋转森林进行分类。我知道旋转森林只适用于数值属性,因为它计算 PCA 和其他东西。
我的期望是我们会忽略分类属性,但是当我使用整个数据集进行分类以及从数据集中删除分类属性时,性能结果会有所不同。
weka 对旋转森林方法中的分类属性做了什么?
【问题讨论】:
标签: classification weka
weka 对旋转森林法中的分类属性做了什么?
我不知道。
但是,如何显式转换您的属性呢?
在 Weka 中,“分类属性”被称为“名义属性”。
在预处理面板中,您可以应用多个替代过滤器来完成您的任务。
应用一个无监督属性过滤器“NominalToBinary”,看看它如何改变属性(使用二进制虚拟变量创建列)。
或者,您可以应用 监督属性过滤器“NominalToBinary”,它以稍微不同的方式转换属性(检查一下)。
另一种选择是尝试无监督属性过滤器“MakeIndicator”(转换为数字,但将所有类别归为 0,编码为数字 1 的类别除外)。
有哪些选择?这取决于您的要求。
【讨论】:
旋转森林类似于随机森林,可用于分类数据。他们使用一组基础分类器,这些基础分类器在特征空间的子集上进行训练。在 Weka 中,默认的基分类器是 J48 决策树,它可以处理分类数据,但是,您几乎可以使用任何基分类器。使用特征空间的引导采样结合 PCA 获得特征子集。在这种情况下,PCA 不用于降低维度,它用于为特征空间选择最佳旋转轴并且维度没有降低,因此 PCA 和分类数据的常见问题在这种情况下并不真正适用。 Weka 还允许您从 PCA 更改主过滤器,因此您可以应用其他方法来选择可能更适合标称数据的最佳旋转轴。
【讨论】:
如果您的分类属性归类为数字,Weka 会将它们视为数字属性。
【讨论】: