【发布时间】:2019-03-04 12:43:08
【问题描述】:
根据我阅读文档的理解,elasticsearch 的工作原理是计算词频 * 非多样化词频。它将文本转换为某种术语频率字典,其中还包括这些术语最常见的位置索引。
我想要做的不是存储文本,而是每行数据的词频。当我简单地上传全文时,搜索工作正常,但在具有 10 多万页文本的完整解决方案中效果不佳。如果文本内容不相关,只存储词频不是更有效吗?
编辑:数据的匿名性也很重要,因此我不希望将完整的句子和段落存储在外部。
【问题讨论】:
-
有人吗?这对我的应用程序至关重要。
标签: python elasticsearch tokenize word-frequency