【发布时间】:2022-01-25 21:55:56
【问题描述】:
我得到了一个数据框,其中有一列字符串值,其中一些似乎已编码。请参阅下面的示例。
Joe<U+034F>¨l Potin;
Sai<U+034F>¨d Slimani;
Jesús Guerrero
读取文件时如何解析/解码它们?
我使用 R Studio 和函数 read.csv()
【问题讨论】:
-
请不要将代码或数据作为图片上传给these reasons。
-
谢谢。以下是一些例子:Joe¨l Potin, Sai¨d Slimani, Jesús Guerrero
-
这看起来像是将 utf-8 解释为 latin-?
read.csv()是否采用编码参数?或者你可以在打开文件时指定编码吗? -
部分是mojibake 案例。示例:
xx <- 'Jesús'; xx; Encoding(xx) <- 'UTF-8'; xx返回[1] "Jesús"和[1] "Jesús"。但是,Joe<U+034F>¨l(或Sai<U+034F>¨d)数据与͏(U+034F,Combining Grapheme Joiner)似乎是乱码——我找不到到Joël的标准转换(或Saïd)。请edit您的问题分享minimal reproducible example(数据框的来源和方式)。
标签: r string parsing utf-8 decode