【发布时间】:2019-03-06 12:06:14
【问题描述】:
我想弄清楚我是否可以同时使用 min_df、max_df 和 max_features 作为来自 Scikit.Sklearn 的 TfidfVectorizer 类的参数。我完全理解他们每个人的用途。
我已将数据传递给 TfidfVectorizer() 修复 min_df = 0.05 和 max_df = 0.95 这意味着出现在我的文档中不到 5% 的术语被忽略,并且与出现在我超过 95% 的文档中的术语相同(如解释
Understanding min_df and max_df in scikit CountVectorizer)。
像这样,我的数据,在做 TF-IDF 后有 360 列。但是,这太多了,所以我想设置max_features = 100。但是,当我在转换后打印新数据的形状时,我仍然得到 360 列,而不是我应该得到的 100 列。
我还尝试仅修复 max_features = 100 以检查如果没有其他参数,它是否只会返回 100 列,但它没有,它实际上有 952 列。我阅读了文档,它说这个参数应该返回最高的 max_features,但是我无法观察到这一点。
有人知道发生了什么吗?
【问题讨论】:
标签: python machine-learning scikit-learn nlp