【发布时间】:2015-07-09 14:41:56
【问题描述】:
我想对推文进行一些挖掘。推文是否有更具体的停用词列表,例如删除“lol”和其他推特笑脸?
【问题讨论】:
标签: twitter nlp data-mining
我想对推文进行一些挖掘。推文是否有更具体的停用词列表,例如删除“lol”和其他推特笑脸?
【问题讨论】:
标签: twitter nlp data-mining
我不知道具体的停用词列表,但您可以在此处获得最常用的单个词的列表: http://clic.cimec.unitn.it/amac/twitter_ngram/(下载en.1grams.gz)
要检测然后忽略表情符号,请使用:https://github.com/brendano/tweetmotif
您可能还会发现这些工具很有用: https://github.com/willf/segment(如果你想分割标签) https://github.com/amacinho/Rovereto-Twitter-Tokenizer(如果你不这样做)
【讨论】:
我不知道 Twitter 特定的停用词列表,但通常的做法是简单地从您的分析中删除 n 个最常用的词,例如,其中 n 可能是 100。根据您的意愿,笑脸实际上可能会提供非常相关的信息。
【讨论】: