pyspark中CountVectorizer的minDF参数是什么？ [复制]

【问题标题】：What is minDF parameter of CountVectorizer in pyspark? [duplicate]pyspark中CountVectorizer的minDF参数是什么？ [复制]
【发布时间】：2019-01-14 11:59:16
【问题描述】：

我看了 spark 文档，里面说

在拟合过程中，CountVectorizer 将选择语料库中按词频排序的前vocabSize 单词。可选参数minDF 还通过指定一个术语必须出现在词汇表中的文档的最小数量（或小于 1.0 时的分数）来影响拟合过程。

谁能给我解释清楚一点？

【问题讨论】：

我想这说明了一切。 stackoverflow.com/questions/27697766/…

标签： python apache-spark pyspark

【解决方案1】：

minDF 用于删除出现频率太低的术语。

例如： minDF = 0.01 表示“忽略出现在不到 1% 文档中的术语”。 minDF = 5 表示“忽略出现在少于 5 个文档中的术语”。

默认的 minDF 是 1，这意味着“忽略出现在少于 1 个文档中的术语”。因此，默认设置不会忽略任何条款。

vocabSize 是您的词汇表中可以包含的最大标记数。默认值为 1

minDF：https://github.com/apache/spark/blob/master/python/pyspark/ml/feature.py#L430-L435 vocabSize：https://github.com/apache/spark/blob/master/python/pyspark/ml/feature.py#L444-L446

【讨论】：