【发布时间】:2016-05-06 06:44:12
【问题描述】:
将 tf.idf 转换应用于 Spark 中的新文档的最佳方法是什么。我有一个设置,我在其中离线训练模型,然后加载它并将其应用于新文件。基本上,如果无法访问模型 IDF 分布,计算 IDF 没有多大意义。
到目前为止,我想到的唯一解决方案是保存训练集的 TF RDD 并将新文档附加到其中,然后计算 IDF RDD 并从 IDF RDD 中提取新文件。这样做的问题是我必须将整个 TF 向量保存在内存中(我想它也可能与 IDF RDD 一起关闭)。
这似乎是某人已经遇到的问题,因此请寻求建议以了解最佳解决方法。
干杯,
伊利亚
【问题讨论】:
标签: apache-spark machine-learning apache-spark-mllib