【发布时间】:2015-09-29 15:45:18
【问题描述】:
我使用 twitteR 包从 twitter 中提取了推文,并将它们保存到一个文本文件中。
我对语料库进行了以下操作
xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1')
xx<-tm_map(xx,stripWhitespace, lazy=TRUE, 'mc.cores=1')
xx<-tm_map(xx,removePunctuation, lazy=TRUE, 'mc.cores=1')
xx<-tm_map(xx,strip_retweets, lazy=TRUE, 'mc.cores=1')
xx<-tm_map(xx,removeWords,stopwords(english), lazy=TRUE, 'mc.cores=1')
(使用 mc.cores=1 和 lazy=True 否则 Mac 上的 R 会出错)
tdm<-TermDocumentMatrix(xx)
但是这个词条文档矩阵有很多奇怪的符号,无意义的词之类的。 如果一条推文是
RT @Foxtel: One man stands between us and annihilation: @IanZiering.
Sharknado‚Äã 3: OH HELL NO! - July 23 on Foxtel @SyfyAU
清理推文后,我只希望留下正确的完整英文单词,即没有其他所有内容的句子/短语(用户名、缩写词、网址)
示例:
One man stands between us and annihilation oh hell no on
(注意:tm 包中的转换命令只能去除停用词、标点空格以及转换为小写)
【问题讨论】:
-
那么,
sharknado和foxtel就可以了,因为它们不是“正确的”英文单词... -
如果您使用例如
xx <- tm_map(xx, content_transformer(removePunctuation)或xx <- tm_map(xx, content_transformer(tolower)),您是否看到任何改进? -
确切的语法可能取决于您安装的
tm软件包的版本号。
标签: r twitter text-mining data-cleaning