【发布时间】:2018-09-02 12:17:10
【问题描述】:
我目前正在寻找一种简单的解决方案来将自定义停用词添加到 spacy。这些停用词应根据词在整个语料库中的绝对频率来确定。例如,在我的特定领域文本中,应将“患者”一词视为停用词,因为它出现在 70% 的所有文档中。
我的第一个想法是在 pandas apply 的帮助下实现这一点,但这需要编写我自己的标记化函数。是否可以自定义 Spacy?
感谢您的建议
【问题讨论】:
标签: python nlp spacy stop-words