【发布时间】:2017-03-20 01:13:58
【问题描述】:
我想使用 Tika 工具包来索引文档文件(pdf、docx...)和图像(通过 tesseract 插件)的内容。
我尝试了弹性摄取附件插件 (https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html),它工作得很好,但没有内置 OCR。 而且我必须发送我的文件的base64,所以内存使用率高+弹性索引“数据”(base64)字段是无用的。
我正在考虑直接使用 Tika 工具包,然后在 ElasticSearch 中索引内容。
所以我想知道这是否是更好的方法?
【问题讨论】:
-
你是对的!我在一篇帖子中收集了所有问题Ingest Attachment Plugin for ElasticSearch: Should You Use It?