【发布时间】:2018-05-08 01:11:56
【问题描述】:
我有一个 .csv 数据集,它由“,”分隔,大约有 5,000 行和“5”列。
但是,对于某些列,内容还包含“,”,例如:
2660,11-01-2016,70.75,05-06-2013,I,,,
4080,26-02-2016,59.36,,D
因此,当我尝试用read_delim() 阅读它时,它会抛出我warnings,但结果应该没问题,例如:
警告:7 次解析失败。
row # A tibble: 5 x 5 col row col 预期实际文件预期实际 1 309 5 列 8 列 'data/my_data.csv' 文件 2 523 5 列 7 列 'data/my_data.csv' 行 3 588 5列 8 列 'data/my_data.csv' col 4 1661 5 列 9 列 'data/my_data.csv' 预期 5 1877 5 列 7 列 'data/my_data.csv'
有什么办法可以解决这个问题吗?
我想我可以使用read_Lines() 并一个一个地处理它,然后将它们变成一个数据框。
你有没有其他方法来处理这种情况?
【问题讨论】:
-
如果您的分隔符是逗号,但您的数据包含原始的、未转义的逗号,那么
read.table无法区分。您可以转义包含逗号数据的列,也可以按照您的建议手动读取每一行。