【问题标题】:How to set custom stop words for sklearn CountVectorizer?如何为 sklearn CountVectorizer 设置自定义停用词?
【发布时间】:2017-02-28 16:27:15
【问题描述】:

我正在尝试在非英语文本数据集上运行 LDA(潜在狄利克雷分配)。

在 sklearn 的教程中,您可以在此部分计算要输入 LDA 的单词的词频:

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                            max_features=n_features,
                            stop_words='english')

它具有内置的停用词功能,我认为该功能仅适用于英语。我怎么能使用我自己的停用词列表呢?

【问题讨论】:

  • 哦,天哪,是的,它成功了!下次应该更好地阅读文档。

标签: python machine-learning scikit-learn nlp


【解决方案1】:

您可以将您自己的话的frozenset 分配给stop_words argument,例如:

stop_words = frozenset(["word1", "word2","word3"])

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-08-29
    • 2017-09-14
    • 2020-06-30
    • 2017-07-12
    • 2018-03-20
    • 2019-12-11
    • 2018-09-19
    相关资源
    最近更新 更多