【问题标题】:getTermFrequencyVector in lucenelucene中的getTermFrequencyVector
【发布时间】:2013-03-28 23:31:23
【问题描述】:

我开始了解 lucene 函数 getTermFreqVector() 在计算两个文档之间的余弦 theta 相似度距离时是如何工作的。任何人都可以阐明 getTermFreqVector(doc number, field-name) 中“字段名称”的含义

【问题讨论】:

    标签: java indexing lucene cosine-similarity


    【解决方案1】:

    像 lucene 这样的倒排索引以允许您按术语执行非常高效的搜索的方式对数据进行索引。您索引文档,它们是字段的集合。字段只是一个键值对:字段名,字段值。

    您可以轻松检索包含特定单词的文档,但检索特定文档的所有索引术语变得更加困难,因为术语枚举是按字段存储的,而不是按文档存储的。术语向量克服了这个问题,允许在每个文档中存储该信息,这样您就可以以高性能的方式检索它,而付出拥有更大索引的代价。

    回到您的问题:术语向量是按文档、每个字段存储的,这就是为什么您必须同时提供文档 ID 和字段名称才能检索它的原因。

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多