【发布时间】:2012-11-13 13:36:33
【问题描述】:
我使用 R 来挖掘推文,我得到了推文中使用频率最高的词。然而,最常见的词是这样的:
[1] "cant" "dont" "girl" "gonna" "lol" "love"
[7] "que" "thats" "watching" "wish" "youre"
我正在寻找文本中的趋势、名称和事件。 我想知道是否有办法从语料库中删除这种短信风格的词(例如,想要,想要,...)?他们有停用词吗? 任何帮助将不胜感激。
【问题讨论】:
-
你可能想看看ark.cs.cmu.edu/TweetNLP
标签: r nlp text-mining stop-words