【发布时间】:2012-11-24 09:50:06
【问题描述】:
我在 Win 7 x64 上使用 R 版本 2.15.2 (2012-10-26) 和 RStudio 版本 0.97.168,语言环境为 English_United Kingdom.1252。
我想使用 'gsub' 将 'christian grgić' 替换为 'christian grgi[ćc]' (后面的字符串稍后将用作正则表达式来查找重音和非重音版本的名称) .
但是,R 似乎不将 ć 识别为带重音的 c。这段代码
name <- "christian grgić"
gsub("ć","[cć]",name)
给出这个输出
[1] "[cc]hristian grgi[cc]"
而不是我想要的:
[1] "christian grgi[cć]"
非常感谢任何帮助。
【问题讨论】:
-
Encoding可能是一个起点。 -
请参阅此问题以获取有关
regexing 国际文本的提示:stackoverflow.com/questions/11369668/… -
谢谢,但目前我无法理解编码。我的系统默认编码似乎是 ISO8859-1(我从 localeToCharset 得到的)。如果我用这种编码保存我的脚本,下次打开它时重音 c 会丢失。所以我用 UTF-8 编码保存(RStudio 提供了这个选项),下次再用 UTF-8 编码重新打开。但是,如果我运行
name <- "christian grgić"然后Encoding(name)我得到“未知”,我无法为字符串设置任何编码。
标签: r