【发布时间】:2018-01-10 15:55:04
【问题描述】:
我有一个非常大的数据集,出于说明目的,如下所示。
Cust_ID、Sales_Assistant、商店
123 , 玛丽, 沃辛顿, 22
456,杰克,查尔斯,42
真实数据有更多的列和数百万行。我正在使用以下代码将其导入到 R 中,但由于其中一列或多列在数据中有逗号(请参阅上面的 Sales_Assistant),因此它失败了。
df <- read.csv("C:/dataextract.csv", header = TRUE , as.is = TRUE , sep = "," , na.strings = "NA" , quote = "" , fill = TRUE , dec = "." , allowEscapes = FALSE , row.names=NULL)
添加 row.names=NULL 会导入所有数据,但会将 Sales_Assistant 列拆分为两列,并使所有其他数据失去对齐。如果我在没有这个的情况下运行代码,我会收到错误...
read.table 中的错误(file = file,header = header,sep = sep,quote = quote,:不允许重复的 'row.names'
...数据不会加载。
您能想出一种不涉及从源头处理数据或在文本编辑器中打开数据的方法吗? R中有解决方案吗?
【问题讨论】: