【发布时间】:2021-10-23 23:46:55
【问题描述】:
我是数据挖掘的初学者。我正在使用weka。该数据集有 109 个变量,其中许多是具有多个级别(1 到 8)的名义变量。我的问题是:
1.我应该将分类变量(最多8个级别)转换为二进制还是直接使用?
注意:我将使用逻辑回归、随机森林、朴素贝叶斯算法。
【问题讨论】:
标签: weka
我是数据挖掘的初学者。我正在使用weka。该数据集有 109 个变量,其中许多是具有多个级别(1 到 8)的名义变量。我的问题是:
1.我应该将分类变量(最多8个级别)转换为二进制还是直接使用?
注意:我将使用逻辑回归、随机森林、朴素贝叶斯算法。
【问题讨论】:
标签: weka
它们应该按原样工作,但如果您将分类数据预处理成二进制,您可能会得到不同的结果。
逻辑回归、随机森林和朴素贝叶斯似乎在 Weka 中很好地使用了名义值。如果将属性转换为二进制,其中一些模型的行为可能会有所不同。我认为逻辑回归不会有太大的不同,但我不太确定随机森林或朴素贝叶斯。
【讨论】: