【发布时间】:2013-12-21 11:10:46
【问题描述】:
我目前正在运行以下代码来清除重音字符中的数据:
df <- gsub('Á|Ã', 'A', df)
df <- gsub('É|Ê', 'E', df)
df <- gsub('Í', 'I', df)
df <- gsub('Ó|Õ', 'O', df)
df <- gsub('Ú', 'U', df)
df <- gsub('Ç', 'C', df)
但是,我想只用一行来完成(使用另一个函数就可以了)。我该怎么做?
【问题讨论】:
-
真正的方法不涉及正则表达式,而是 Unicode 规范化。但是,我不确定 R 中支持的 Unicode 库绑定(例如 ICU)有多好,因此正确的解决方案在实践中的可行性如何。
标签: regex r optimization gsub