如何在 Spark MLLIb 的 HashingTF() 函数中设置目标特征维度？答案

【问题标题】：how to set target feature dimension in Spark MLLIb's HashingTF() function?如何在 Spark MLLIb 的 HashingTF() 函数中设置目标特征维度？
【发布时间】：2018-07-10 14:07:31
【问题描述】：

Apache Spark MLLIB 具有 HashingTF() 函数，该函数将标记化的单词作为输入并转换这些集合成固定长度的特征向量。

如文档链接中所述 spark mlib documentation

建议使用 2 的幂作为特征维度。

问题是指数值是否是输入中的项数

如果是，假设如果我将超过 1000 个文本文档作为输入，其中包含超过 5000 个术语，那么特征维度变为 2^5000

我的假设是正确的还是有其他方法可以找到指数值

【问题讨论】：

how to interpret RDD.treeAggregate的可能重复

标签： hash hashtable apache-spark-mllib tf-idf

【解决方案1】：

从文档HashingTF 中说：“建议使用 2 的幂作为特征维度”--> 我认为这意味着 numFeatures = 2^n

例如，您的词汇量是 900，那么 numFeatures 值应该 > 900 和 2 的幂，即 2^10 (=1024) 可能是一个很好的估计值。

【讨论】：

如果您提供参考文档，您应该提供文档链接。
谢谢，我添加了文档链接