数据类型以及 rapidminer 如何强调它们答案

【问题标题】：Data types and how rapidminer emphasizes them数据类型以及 rapidminer 如何强调它们
【发布时间】：2019-07-28 17:13:39
【问题描述】：

对 rapidminer 和数据科学来说相当陌生。

我导入了数据（它非常广泛，所以需要一段时间来对所有数据类型进行分类）。我将数据放在随机森林中，它似乎强调了错误的事情。我相信这是由于不正确的数据类型分类。我似乎找不到好的数据类型文档，正在寻找有关 rapidminer 如何看待每个文档的解释。

例如，我有一些列有 90% 的空白，并且有几个填充了它。我将其标记为“名义上的”，并且快速矿工在此列中给予了很大的权重。我希望它更多地权衡日期列，因为我正在尝试预测周期 tmie.... 非常感谢任何帮助或见解！

一些可用的数据类型是：
标称
多项式
二项式
日期
正文
等等

【问题讨论】：

【解决方案1】：

我不能 100% 确定我是否正确地回答了您的问题，但 RapidMiner 或 RandomForest 算法都没有强调某种数据类型而不是另一种。因此，如果算法更重视名义列，那是因为您的示例强烈分离。

RapidMiner 中的不同数据类型是允许、禁止某些操作。典型的例子是电话号码。如果将它们存储为实数，则可能会得到平方根或平均值之类的东西，这是没有意义的。因此将它们存储为字符串（或标称）更有意义。

如果您想排除某些属性，您可以尝试特征选择或降维方法（如 PCA 或 Remove Correlated、Remove Useless 运算符。

还可以随时在 RapidMiner community forum 中进一步提问或重新发布问题。

【讨论】：