【发布时间】:2019-07-29 03:17:29
【问题描述】:
我正在使用sklearn 的TfIdfVectorizer 来向量化我的语料库。在我的分析中,有一些文档由于包含所有停用词而被过滤掉了所有术语。为了减少稀疏性问题,并且因为将它们包含在分析中没有意义,我想将其删除。
查看TfIdfVectorizer 文档,没有可以设置的参数来执行此操作。因此,我正在考虑在将语料库传递到矢量化器之前手动删除它。但是,这有一个潜在的问题,即我得到的停用词与矢量化器使用的列表不同,因为我还使用min_df 和max_df 选项来过滤掉术语。
有没有更好的方法来实现我正在寻找的内容(即删除/忽略包含所有停用词的文档)?
任何帮助将不胜感激。
【问题讨论】:
标签: python python-3.x scikit-learn tfidfvectorizer