【问题标题】:Elasticsearch attachment plugin vs own tika implementationElasticsearch 附件插件与自己的 tika 实现
【发布时间】:2017-03-20 01:13:58
【问题描述】:

我想使用 Tika 工具包来索引文档文件(pdf、docx...)和图像(通过 tesseract 插件)的内容。

我尝试了弹性摄取附件插件 (https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html),它工作得很好,但没有内置 OCR。 而且我必须发送我的文件的base64,所以内存使用率高+弹性索引“数据”(base64)字段是无用的。

我正在考虑直接使用 Tika 工具包,然后在 ElasticSearch 中索引内容。

所以我想知道这是否是更好的方法?

【问题讨论】:

标签: elasticsearch apache-tika


【解决方案1】:

我们创建了一个系统来处理文件(抓取 -> OCR -> 索引 -> 搜索)。它被称为Ambar。我们构建它的想法是为 Ingest Attachment 创建一个良好而可靠的替代品。

作为搜索引擎,我们使用 ElasticSearch 作为上下文提取器:Tika + Tesseract + ImageMagick + 自定义 PDF 提取器。

我们为自己的 Tika + ES 实现提供了一个简单但功能强大的替代方案。

查看Github 了解更多详情。

【讨论】:

    【解决方案2】:

    在撰写本文时,几乎没有关于通过 elasticsearch-mapper-attachments 插件中的 Tesseract 启用 OCR 的文档。

    一切都指向你在 Elasticsearch 之外处理 OCR 的任务,然后分别索引内容。

    参考:https://github.com/elastic/elasticsearch-mapper-attachments/issues/10

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-02-04
      • 1970-01-01
      • 1970-01-01
      • 2019-05-16
      • 2017-04-22
      • 2011-07-08
      • 2017-02-27
      相关资源
      最近更新 更多