【问题标题】:Data types and how rapidminer emphasizes them数据类型以及 rapidminer 如何强调它们
【发布时间】:2019-07-28 17:13:39
【问题描述】:

对 rapidminer 和数据科学来说相当陌生。

我导入了数据(它非常广泛,所以需要一段时间来对所有数据类型进行分类)。我将数据放在随机森林中,它似乎强调了错误的事情。我相信这是由于不正确的数据类型分类。我似乎找不到好的数据类型文档,正在寻找有关 rapidminer 如何看待每个文档的解释。

例如,我有一些列有 90% 的空白,并且有几个填充了它。我将其标记为“名义上的”,并且快速矿工在此列中给予了很大的权重。我希望它更多地权衡日期列,因为我正在尝试预测周期 tmie.... 非常感谢任何帮助或见解!

一些可用的数据类型是:
标称
多项式
二项式
日期
正文
等等

【问题讨论】:

    标签: data-science rapidminer


    【解决方案1】:

    我不能 100% 确定我是否正确地回答了您的问题,但 RapidMiner 或 RandomForest 算法都没有强调某种数据类型而不是另一种。 因此,如果算法更重视名义列,那是因为您的示例强烈分离。

    RapidMiner 中的不同数据类型是允许、禁止某些操作。 典型的例子是电话号码。如果将它们存储为实数,则可能会得到平方根或平均值之类的东西,这是没有意义的。因此将它们存储为字符串(或标称)更有意义。

    如果您想排除某些属性,您可以尝试特征选择或降维方法(如 PCA 或 Remove CorrelatedRemove Useless 运算符。

    还可以随时在 RapidMiner community forum 中进一步提问或重新发布问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-10-12
      • 1970-01-01
      • 1970-01-01
      • 2021-11-13
      • 2019-09-24
      • 2013-06-16
      • 1970-01-01
      相关资源
      最近更新 更多