【发布时间】:2018-07-10 14:07:31
【问题描述】:
Apache Spark MLLIB 具有 HashingTF() 函数,该函数将标记化的单词作为输入并转换这些集合 成固定长度的特征向量。
如文档链接中所述 spark mlib documentation
建议使用 2 的幂作为特征维度。
问题是指数值是否是输入中的项数
如果是,假设如果我将超过 1000 个文本文档作为输入,其中包含超过 5000 个术语,那么特征维度变为 2^5000
我的假设是正确的还是有其他方法可以找到指数值
【问题讨论】:
标签: hash hashtable apache-spark-mllib tf-idf