【问题标题】:Rapidminer - Spliting rows that has values in wrong typeRapidminer - 拆分具有错误类型值的行
【发布时间】:2018-10-09 04:11:57
【问题描述】:

我在一个 txt 文件中有一个 8 百万行的数据集,格式为制表符分隔格式,不带引号。 14 列中有 5 列的日期值采用 dd.MM.yyyy 格式。

问题 1 我正在尝试导入文件。在“格式化你的列”步骤中,如果我选择该列的类型为“日期”,它会给出错误,并且列中的所有单元格都会变成“?”

所以我选择了“多项式”并计划稍后将属性类型转换为日期。

问题 2(真正的问题) 我导入了数据并输入了“名义至今”运算符。当我运行时,第 14.899 行出现错误:

Cannot parse date: Unparseable date: "0"

我找到了该行,并且看到列分隔错误。前一个单元格中的字符串中有一个制表符。所以值向右移动了一个单元格。而且移动的不止这一排。

我想为指定属性拆分数据类型错误的行。所以我不能手动更正它们。

如何在 Rapidminer 中做到这一点?

或者有什么其他想法可以解决这些问题?

【问题讨论】:

    标签: attributes data-mining rapidminer


    【解决方案1】:

    因此您很可能需要在此下拉菜单中调整日期格式:

    说实话,我通常只是导入为多项式,然后在我的过程中转换为日期。它更容易且可重现。

    【讨论】:

      【解决方案2】:

      您的输入文件似乎已损坏。

      显然,最好的解决方案是修复生成数据的过程。使用空格或替换制表符并将日期格式化为明确的格式,例如 ISO 日期格式。

      假设您无法确定日期,您可能应该自己编写一个强大的解析器程序。像 rapidminer 这样的通用解析器无法解决所有问题。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2013-09-18
        • 2016-09-03
        • 1970-01-01
        • 2023-04-06
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多