【问题标题】:String Cleaning in R down to just lettersR中的字符串清理到只是字母
【发布时间】:2013-06-17 09:17:33
【问题描述】:

所以我正在尝试清理 R 中的字符串,并且我希望能够清理所有非字母元素的每个字符串。我知道我可以只使用 gsub 单独执行它们,但我希望能够取出所有它们(不包括空格),或者如果我将其归结为删除空格的单个字符串,也将它们剥离。

例如,如果我有一个电子邮件地址作为字符串向量,“abc123@gmail.com”,或形式为(“abc”,“123”,“abc123”)的字符串向量,剥离它们应该会产生“abcgmailcom”和(“abc”,“”,“abc”)分别。我只会处理多个字符串的向量。

【问题讨论】:

  • 请举例说明您的字符串,以及它们的结构(在列表中、数据框中的列等中)

标签: string r


【解决方案1】:

像这样?

char <- c("dc2 54üx*","%67{~\\hjkh")
#[1] "dc2 54üx*"   "%67{~\\hjkh"
gsub("[^[:alpha:] ]","",char)
#[1] "dc üx" "hjkh"

【讨论】:

  • 有没有办法留下字母数字,而不仅仅是字母?
  • 是的,它在?regex中给出。
  • +1 表示不让步并让 OP 进行一些调查工作!我打算介绍lapply/sapply 在输入数据在列表中或data.frame 时的用法,但感觉重复太多了。
猜你喜欢
  • 1970-01-01
  • 2023-03-16
  • 2021-12-02
  • 2021-10-28
  • 2021-12-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-11-17
相关资源
最近更新 更多