【问题标题】:Where to find an exhaustive list of stop words?在哪里可以找到详尽的停用词列表?
【发布时间】:2016-10-08 15:37:43
【问题描述】:

在哪里可以找到详尽的停用词列表?我的那本很短,似乎不适用于科学文本。 我正在创建词汇链以从科学论文中提取关键主题。问题是basedregarding 等词也应该被视为停用词,因为它们没有多大意义。

【问题讨论】:

    标签: nlp lexical-analysis stop-words


    【解决方案1】:

    您还可以轻松地添加到现有的停用词列表中。例如。使用 NLTK 工具包中的那个:

    from nltk.corpus import stopwords
    

    然后添加您认为缺少的任何内容:

    stopwords = stopwords.words('english')+["based", "regarding"]
    

    原始 NLTK 列表描述为here

    【讨论】:

      【解决方案2】:

      很难找到一个详尽的停用词列表,因为给定的词在给定域中可以被视为停用词,但在另一个域中却是重要的词。

      您可以查看一些停用词列表:

      http://blog.adlegant.com/how-to-install-nltk-corporastopwords/

      http://www.lextek.com/manuals/onix/stopwords1.html

      http://www.ranks.nl/stopwords

      http://xpo6.com/list-of-english-stop-words/

      【讨论】:

      • 也许在这种情况下检查一些特定领域的字典更重要? (我使用 WordNet)...我是 NLP 的新手
      猜你喜欢
      • 2016-03-26
      • 2010-11-24
      • 1970-01-01
      • 1970-01-01
      • 2022-10-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多