【发布时间】:2019-01-14 11:59:16
【问题描述】:
我看了 spark 文档,里面说
在拟合过程中,
CountVectorizer将选择语料库中按词频排序的前vocabSize单词。可选参数minDF还通过指定一个术语必须出现在词汇表中的文档的最小数量(或小于 1.0 时的分数)来影响拟合过程。
谁能给我解释清楚一点?
【问题讨论】:
-
我想这说明了一切。 stackoverflow.com/questions/27697766/…
标签: python apache-spark pyspark