【发布时间】:2011-02-22 22:09:34
【问题描述】:
我需要处理一个数据库,以便将 td-idf 权重等元信息添加到文档术语中。
我需要创建具有相似性度量的文档对,例如 td-idf 余弦相似度等...
我打算使用 Apache Lucene 来完成这项任务。我实际上对检索或运行查询不感兴趣,而是对数据进行索引并详细说明它们以生成具有上述文档对和相似性分数的输出文件。下一步是将这些结果传递给 Weka 分类器。
我可以用 Lucene 轻松做到吗? 谢谢
【问题讨论】:
我需要处理一个数据库,以便将 td-idf 权重等元信息添加到文档术语中。
我需要创建具有相似性度量的文档对,例如 td-idf 余弦相似度等...
我打算使用 Apache Lucene 来完成这项任务。我实际上对检索或运行查询不感兴趣,而是对数据进行索引并详细说明它们以生成具有上述文档对和相似性分数的输出文件。下一步是将这些结果传递给 Weka 分类器。
我可以用 Lucene 轻松做到吗? 谢谢
【问题讨论】:
试试Integrating Apache Mahout with Apache Lucene and Solr。用“Weka”替换“Mahout”的地方。祝你好运。
【讨论】: