【问题标题】:JackRabbit: textFilterClasses deprecated. How to specify extractors?JackRabbit:不推荐使用 textFilterClasses。如何指定提取器?
【发布时间】:2012-04-18 05:22:06
【问题描述】:

我的 Jackrabbit 2.4 说,SearchIndex 元素的 textFilterClasses 参数已被弃用和忽略。当我一起删除 textFilterClasses 参数时,它会索引 Pdf、Rtf - 一切。

当我没有指定任何提取器时,它怎么知道它应该索引哪些二进制文件?

API 表示已弃用,但未提供任何替代方案。

谢谢!

【问题讨论】:

    标签: lucene jackrabbit jcr


    【解决方案1】:

    在 Jackrabbit 2.x 中引入了 Apache Tika 作为默认的二进制文件解析器。默认情况下,Jackrabbit 带有一个默认的 tika-config.xml 文件,其中包含要解析和提取的 mime-types 的配置。

    在 Jackrabbit 2.4 中,您应该能够从 repository.xml 中设置 tika-config.xml 的位置。

    搜索索引配置中的正确参数应该类似于:

    <SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex">
      <param name="path" value="${wsp.home}/index"/>
      <param name="supportHighlighting" value="true"/>
      <param name="tikaConfigPath" value="${wsp.home}/tika-config.xml"/>
    </SearchIndex>
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2022-08-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-08-30
      • 2016-04-22
      • 2012-11-14
      相关资源
      最近更新 更多