【发布时间】:2017-11-22 12:41:53
【问题描述】:
下面是我的作品。
tweets <- searchTwitter("urban park", n = 2000, lang = "en")
tweets <- strip_retweets(tweets)
text <- sapply(tweets, function(x) x$getText())
text <- gsub("&", "", text)
text <- gsub("http\\w+", "", text)
text <- gsub("@\\w+", "", text)
text <- gsub('[[:punct:]]', '', text)
text <- gsub('[[:cntrl:]]', '', text)
text <- gsub("[[:digit:]]", "", text)
text <- gsub("[ \t]{2,}", "", text)
text <- gsub("^\\s+|\\s+$", "", text)
mycorpus <- Corpus(VectorSource(text))
inspect(mycorpus[35:50])
结果:......
[22] skateboard skate board scene skate park urban worn street streetlife eauclaire… tcoFvJllsRC
[23] skateboard skate board scene skate park urban worn street streetlife eauclaire… tcoBRbDKOxOs
[24] skateboard skate board scene skate park urban worn street streetlife eauclaire… tcoxlUFDOudRm ......
虽然我在清理文本之前使用了函数 strip_retweets 删除了那些转发,但转发仍然在这里,如上所示。
另外,如何删除“tcoFvJllsRC”、“tcoxlUFDOudRm”等字词?它们代表什么?
我的文本清理过程是否正确?
【问题讨论】:
标签: r data-cleaning