【发布时间】:2016-01-15 05:03:51
【问题描述】:
我在 R 中有一个数据框,其中一列(称为“城市”)包含一个文本字符串。我的目标是从文本字符串中只提取一个单词,即城市文本。城市文本总是跟在单词“in”之后,例如文本可能是:
'in London'
'in Manchester'
我尝试创建一个新列(“市政”):
df$municipality <- gsub(".*in ?([A-Z+).*$","\\1",df$city)
这给了我“in”后面的第一个字母,但我需要下一个单词(仅下一个单词)
然后我尝试了:
gsub(".*in ?([A-Z]\w+))")
它适用于正则表达式检查器,但不适用于 R。有人可以帮助我吗?我知道这可能很简单,但我无法破解它。提前致谢。
【问题讨论】: