【发布时间】:2015-11-13 14:35:57
【问题描述】:
下图显示了我在 R 中导入它(记事本)之前和导入之后的数据。
我使用以下命令将其导入到 R 中:
Data <- read.csv('data.csv',stringsAsFactors = FALSE,header = TRUE,quote = "")
可以看出ae等特殊字符被替换为A|之类的东西(第 19 行在左边,第 18 行或右边)。有没有办法按原样导入 CSV 文件? (使用 R)
【问题讨论】:
-
你试过
install.packages("data.table");library(data.table);fread()吗? -
如果您知道编码类型,您可以在 readLines 的参数中设置它。
-
@dc3 数据来自网络抓取,所以我猜它们没有标准格式。对?或者可能是?
-
@MpizosDimitris 正确 - 通常您可以检查编码类型(取决于您使用的浏览器)。由于它不是英文的,因此您必须查找最常见的编码...如果您无法弄清楚,则始终可以选择查找模式并仅使用 gsubbing。 - 也许这有帮助:htmlpurifier.org/docs/enduser-utf8.html#findcharset
-
不久前我遇到了一个与此类似的问题。我收到的一些建议可能有助于缩小错误来源:stackoverflow.com/questions/23152861/reading-foreign-characters
标签: r csv character-encoding special-characters