【发布时间】:2017-10-19 08:39:14
【问题描述】:
TfidfVectorizer 提供了一种将文本编码和转换为向量的简单方法。
我的问题是如何为 min_df、max_features、smooth_idf、sublinear_tf 等参数选择合适的值?
更新:
也许我应该在这个问题上提供更多细节:
如果我对一堆文本进行无监督聚类怎么办。而且我没有任何文本标签,我不知道可能有多少个集群(这实际上是我想要弄清楚的)
【问题讨论】:
-
查看“交叉验证”。该决策过程称为“超参数调整”,因为
min_df等都是超参数。
标签: python scikit-learn nlp tf-idf tfidfvectorizer