【问题标题】:What is minDF parameter of CountVectorizer in pyspark? [duplicate]pyspark中CountVectorizer的minDF参数是什么? [复制]
【发布时间】:2019-01-14 11:59:16
【问题描述】:

我看了 spark 文档,里面说

在拟合过程中,CountVectorizer 将选择语料库中按词频排序的前vocabSize 单词。可选参数minDF 还通过指定一个术语必须出现在词汇表中的文档的最小数量(或小于 1.0 时的分数)来影响拟合过程。

谁能给我解释清楚一点?

【问题讨论】:

标签: python apache-spark pyspark


【解决方案1】:

minDF 用于删除出现频率太低的术语。

例如: minDF = 0.01 表示“忽略出现在不到 1% 文档中的术语”。 minDF = 5 表示“忽略出现在少于 5 个文档中的术语”。

默认的 minDF 是 1,这意味着“忽略出现在少于 1 个文档中的术语”。因此,默认设置不会忽略任何条款。

vocabSize 是您的词汇表中可以包含的最大标记数。默认值为 1

minDFhttps://github.com/apache/spark/blob/master/python/pyspark/ml/feature.py#L430-L435 vocabSizehttps://github.com/apache/spark/blob/master/python/pyspark/ml/feature.py#L444-L446

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-01-22
    • 2021-11-16
    • 1970-01-01
    • 2019-07-25
    • 2019-06-07
    • 2013-06-08
    • 1970-01-01
    • 2016-04-30
    相关资源
    最近更新 更多