【发布时间】:2014-02-23 15:47:23
【问题描述】:
我想使用 Lucene.NET 来存储和查询术语向量。但是,我不希望从文档中创建术语向量。相反,我希望能够直接编写和更新术语向量,而不需要术语/标记的位置或偏移量。
解决方法是从术语向量生成文本,即从术语向量生成文本
foo: 3; bar: 1
生成文本
foo, foo, foo, bar
并让 Lucene 索引该文本。如果我想将 bar 的词频更新为2,我可以获取存储的文本(或者从旧词向量生成它,如果我不存储它),将其更改为
foo, foo, foo, bar, bar
并更新索引中的相应文档。
对于这样一个简单的任务来说,这是相当昂贵的。显然,这不是用例,Lucene 是为使用而构建的。不过,我希望能够使用 Lucene 的强大功能进行查询等。
有没有办法直接为文档编写术语向量,或者您有什么其他好的想法吗?
【问题讨论】:
-
您好,我也有同样的问题。您找到解决方案了吗?
-
@eroy4u:不是真的,看看下面我的回答...
-
Elasticsearch 的同样问题——我认为这个功能真的很有用。
标签: vector lucene lucene.net