【发布时间】:2014-08-22 12:41:06
【问题描述】:
我不太知道如何表达这个问题。我刚刚开始处理一堆推文,我已经做了一些基本的清理工作,现在一些推文看起来像:
x <- c("stackoverflow is a great site",
"stackoverflow is a great si",
"stackoverflow is a great",
"omg it is friday and so sunny",
"omg it is friday and so",
"arggh how annoying")
基本上,我想通过检查字符串的第一部分是否匹配并返回最长的字符串来删除重复项。在这种情况下,我的结果应该是:
[1]"stackoverflow is a great site"
[2]"omg it is friday and so sunny"
[3]"arggh how annoying"
因为所有其他内容都是上述内容的截断重复。我试过使用
unique() 函数,但它不返回我想要的结果,因为它试图匹配字符串的整个长度。请大家指点一下?
我在 Mac OSX 10.7 上使用 R 版本 3.1.1...
谢谢!
【问题讨论】: