【发布时间】:2018-10-09 04:11:57
【问题描述】:
我在一个 txt 文件中有一个 8 百万行的数据集,格式为制表符分隔格式,不带引号。 14 列中有 5 列的日期值采用 dd.MM.yyyy 格式。
问题 1 我正在尝试导入文件。在“格式化你的列”步骤中,如果我选择该列的类型为“日期”,它会给出错误,并且列中的所有单元格都会变成“?”
所以我选择了“多项式”并计划稍后将属性类型转换为日期。
问题 2(真正的问题) 我导入了数据并输入了“名义至今”运算符。当我运行时,第 14.899 行出现错误:
Cannot parse date: Unparseable date: "0"
我找到了该行,并且看到列分隔错误。前一个单元格中的字符串中有一个制表符。所以值向右移动了一个单元格。而且移动的不止这一排。
我想为指定属性拆分数据类型错误的行。所以我不能手动更正它们。
如何在 Rapidminer 中做到这一点?
或者有什么其他想法可以解决这些问题?
【问题讨论】:
标签: attributes data-mining rapidminer