【问题标题】:Is there a stop word list for twitter?推特有停用词列表吗?
【发布时间】:2015-07-09 14:41:56
【问题描述】:

我想对推文进行一些挖掘。推文是否有更具体的停用词列表,例如删除“lol”和其他推特笑脸?

【问题讨论】:

    标签: twitter nlp data-mining


    【解决方案1】:

    我想您应该将普通的停用词列表(例如 this onethat)与特定的首字母缩略词词典(例如this slang dictionary,或that,或that,或that(最后一个似乎最容易解析,见 cmets here 的想法)。

    【讨论】:

      【解决方案2】:

      我不知道具体的停用词列表,但您可以在此处获得最常用的单个词的列表: http://clic.cimec.unitn.it/amac/twitter_ngram/(下载en.1grams.gz)

      要检测然后忽略表情符号,请使用:https://github.com/brendano/tweetmotif

      您可能还会发现这些工具很有用: https://github.com/willf/segment(如果你想分割标签) https://github.com/amacinho/Rovereto-Twitter-Tokenizer(如果你不这样做)

      【讨论】:

        【解决方案3】:

        我不知道 Twitter 特定的停用词列表,但通常的做法是简单地从您的分析中删除 n 个最常用的词,例如,其中 n 可能是 100。根据您的意愿,笑脸实际上可能会提供非常相关的信息。

        【讨论】:

        • 我正在对推文数据进行一些检索。我认为笑脸对我的检索工作毫无意义。
        猜你喜欢
        • 1970-01-01
        • 2014-05-10
        • 2020-07-08
        • 2020-07-23
        • 2013-02-02
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-12-19
        相关资源
        最近更新 更多