【发布时间】:2017-02-28 16:27:15
【问题描述】:
我正在尝试在非英语文本数据集上运行 LDA(潜在狄利克雷分配)。
在 sklearn 的教程中,您可以在此部分计算要输入 LDA 的单词的词频:
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
max_features=n_features,
stop_words='english')
它具有内置的停用词功能,我认为该功能仅适用于英语。我怎么能使用我自己的停用词列表呢?
【问题讨论】:
-
哦,天哪,是的,它成功了!下次应该更好地阅读文档。
标签: python machine-learning scikit-learn nlp