【问题标题】:Integrating grobid with tika and solr将 grobid 与 tika 和 solr 集成
【发布时间】:2021-01-09 00:48:41
【问题描述】:

我正在使用 Solr 来索引期刊文章。使用开箱即用的配置,它索引文档的文本,但我希望使用 Grobid 提取作者、标题、附属机构等。我启动了 grobid 并作为服务运行。

我加了

<str name="tika.config">/path/to/tika-config.xml</str>

到 solrconfig.xml 中 /update/extract 的 requestHandler

tika-config 看起来像:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
  <parsers>
    <parser class="org.apache.tika.parser.journal.JournalParser">
      <mime>application/pdf</mime>
    </parser>
  </parsers>
</properties>

当我尝试导入文档时遇到 ClassNotFound 异常,但不知道在哪里设置类路径来修复它。

【问题讨论】:

    标签: solr apache-tika grobid


    【解决方案1】:

    正如 Solr 用户列表中所述,最新版本的 Solr (6.0.0) 使用的 Tika (1.7) 版本早于添加 grobid(在 Tika 1.11 中出现)permalink。要关注 Tika 1.13 的升级,请参阅SOLR-8981

    【讨论】:

      猜你喜欢
      • 2011-09-05
      • 1970-01-01
      • 2014-03-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-09-17
      相关资源
      最近更新 更多