【发布时间】:2017-05-30 19:29:40
【问题描述】:
我正忙于创建文档搜索。主要思想是读取文档(使用 Tika),然后将其添加到索引中以创建全文文档搜索。
很多文档都很大,每当我尝试索引它们时都会出错:
IllegalArgumentException[Document contains at least one immense term in field\"<field>\" (whose UTF8 encoding is larger than the max length 32766),
与此线程相同:UTF8 encoding is longer than the max length 32766
除了限制传递给 ElasticSearch 的实际字符串之外,另一个建议是为该特定字段创建自定义分析器。因此,我试图创建一个这样的分析器,但由于我对 ES 很陌生,我不太清楚如何。可悲的是,文档对此没有多大帮助。
我不需要特定的分析器(除非您有一个很好的用于大字符串的分析器),但只需要一些关于如何将此自定义分析器分配给特定字段的帮助。
【问题讨论】:
-
您是否最终创建了一个按预期执行的分析器?
-
@justis 请参阅下面的答案。
标签: java elasticsearch apache-tika analyzer