【发布时间】:2016-06-08 22:28:45
【问题描述】:
我正在尝试删除字符串中的一些非常特殊的字符。 我读过其他帖子,例如:
但这些不是我想要的。
假设我的字符串如下:
s = "who are í ½í¸€ bringing?"
我尝试了以下方法:
test = tm_map(s, function(x) iconv(enc2utf8(x), sub = "byte"))
test = iconv(s, 'UTF-8', 'ASCII')
以上都不起作用。
编辑: 我正在寻找一个通用的解决方案! 我不能(也不希望)手动识别所有特殊字符。
这些非常特殊的字符也可能(不是 100% 确定)来自表情符号
请帮助或指导我找到正确的帖子。 谢谢!
【问题讨论】:
-
我认为真正的问题是,你是怎么处理乱码的?如果您退后一步,回到生成此字符串的方式,您可能可以调整该步骤以获得您想要的输出。
-
所以,我只是用 gsub 尝试了这个,它似乎可以工作。像这样:
s2 <- gsub("€", "", s)。尝试这样做。基本上将您的字符串中的“€”实例更改为空,有效地删除它们。 -
@RichardScriven 我不太确定,但可能来自表情符号
-
@giraffehere 你有更通用/更少手动的方法吗?
标签: r special-characters