【问题标题】:Spacy Stopwords based on Frequency基于频率的 Spacy 停用词
【发布时间】:2018-09-02 12:17:10
【问题描述】:

我目前正在寻找一种简单的解决方案来将自定义停用词添加到 spacy。这些停用词应根据词在整个语料库中的绝对频率来确定。例如,在我的特定领域文本中,应将“患者”一词视为停用词,因为它出现在 70% 的所有文档中。

我的第一个想法是在 pandas apply 的帮助下实现这一点,但这需要编写我自己的标记化函数。是否可以自定义 Spacy?

感谢您的建议

【问题讨论】:

    标签: python nlp spacy stop-words


    【解决方案1】:

    要将自定义停用词添加到 Spacy,您可以按照此处给出的解决方案:Add/remove stop words with spacy 。现在在其他中自动获取推荐的停用词列表,您可以使用 NLTK 包计算词频和文档频率(tf-idf),然后定义一个垃圾。

    如果您有任何疑问,请随时发表评论。

    祝你好运!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-09-12
      • 1970-01-01
      • 1970-01-01
      • 2018-09-04
      • 2019-09-19
      • 2015-09-23
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多