【问题标题】:how to set target feature dimension in Spark MLLIb's HashingTF() function?如何在 Spark MLLIb 的 HashingTF() 函数中设置目标特征维度?
【发布时间】:2018-07-10 14:07:31
【问题描述】:

Apache Spark MLLIB 具有 HashingTF() 函数,该函数将标记化的单词作为输入并转换这些集合 成固定长度的特征向量。

如文档链接中所述 spark mlib documentation

建议使用 2 的幂作为特征维度。

问题是指数值是否是输入中的项数

如果是,假设如果我将超过 1000 个文本文档作为输入,其中包含超过 5000 个术语,那么特征维度变为 2^5000

我的假设是正确的还是有其他方法可以找到指数值

【问题讨论】:

标签: hash hashtable apache-spark-mllib tf-idf


【解决方案1】:

从文档HashingTF 中说:“建议使用 2 的幂作为特征维度”--> 我认为这意味着 numFeatures = 2^n

例如,您的词汇量是 900,那么 numFeatures 值应该 > 900 和 2 的幂,即 2^10 (=1024) 可能是一个很好的估计值。

【讨论】:

  • 如果您提供参考文档,您应该提供文档链接。
  • 谢谢,我添加了文档链接
猜你喜欢
  • 2017-02-02
  • 2017-03-24
  • 2018-04-27
  • 2016-12-10
  • 2015-02-04
  • 2015-08-24
  • 2016-09-04
  • 1970-01-01
  • 2016-03-01
相关资源
最近更新 更多