【发布时间】:2018-02-17 12:34:09
【问题描述】:
TfidfVectorizer模块中max_features参数的编号如何选择?我应该使用数据中的最大元素数吗?
参数的description 并没有让我清楚地知道如何为其选择值:
max_features : int 或 None,默认=None
如果不是 None,则构建一个仅考虑按语料库中的词频排序的最高 max_features 的词汇表。 如果词汇表不是 None,则忽略此参数。
【问题讨论】:
-
不太清楚你在问我什么。如果您没有特定理由来限制元素数量,请不要指定它,它将默认为数据集中的最大元素数量。
标签: scikit-learn