【发布时间】:2012-05-25 22:25:07
【问题描述】:
在我的项目中,我们试图计算我面临 2 个问题的一组文档的文本相似度。
我不想重新计算我之前计算过的文档的词频。例如我有 10 个文档,我计算了所有 10 个文档的词频和逆文档频率。然后我又得到了 2 个文件。现在我不想计算已经存在的 10 个文档的词频,而是想计算新出现的 2 个文档的 TF,然后对所有 12 个文档使用 TF,并将 12 个文档的 IDF 计算为所有的。 如何在不重新计算现有文档的TF的情况下计算所有文档的IDF?
文档数量可能会增加,这意味着使用内存方法 (InMemoryBayesDatastore) 可能会变得很麻烦。我想要的是将所有文档的 TF 保存在 HBASE 表中,当新文档到达时,我计算新文档的 TF,将它们保存在 HBASE 表中,然后我使用这个 HBASE 表来获取所有文档的 TF用于计算 IDF 的文档。 如何使用 HBase 向 Mahout 的 Text Similarity 提供数据,而不是从序列文件中获取数据?
【问题讨论】:
标签: java hadoop hbase mahout hadoop-streaming