【发布时间】:2018-10-26 18:44:06
【问题描述】:
我对一些包含制表符分隔数据的数据集有一点问题,但不幸的是原始数据中有一些错误,导致读取 R 时出现问题。
一个更好理解的小例子,数据集如下所示:
Col1 Col2 Col3
1 2 3
4 5 6
7
8 9
10 11 12
7 8 9 部分应该在一行中,但被错误地分成了两部分(在原始数据中)。在读入而不是通过手动更改时是否有机会纠正此问题?由于数据集大约有 400 万个观测值,因此手动校正将花费大量时间...
【问题讨论】:
-
您在表格中使用什么类型的分隔符?像上面这样的一行是否有 2 个分隔符而不是一个?
-
您可能希望使用 sed 替换冗余分隔符
-
你也有空行吗?
-
不,没有空行