【发布时间】:2012-04-18 05:22:06
【问题描述】:
我的 Jackrabbit 2.4 说,SearchIndex 元素的 textFilterClasses 参数已被弃用和忽略。当我一起删除 textFilterClasses 参数时,它会索引 Pdf、Rtf - 一切。
当我没有指定任何提取器时,它怎么知道它应该索引哪些二进制文件?
API 表示已弃用,但未提供任何替代方案。
谢谢!
【问题讨论】:
标签: lucene jackrabbit jcr
我的 Jackrabbit 2.4 说,SearchIndex 元素的 textFilterClasses 参数已被弃用和忽略。当我一起删除 textFilterClasses 参数时,它会索引 Pdf、Rtf - 一切。
当我没有指定任何提取器时,它怎么知道它应该索引哪些二进制文件?
API 表示已弃用,但未提供任何替代方案。
谢谢!
【问题讨论】:
标签: lucene jackrabbit jcr
在 Jackrabbit 2.x 中引入了 Apache Tika 作为默认的二进制文件解析器。默认情况下,Jackrabbit 带有一个默认的 tika-config.xml 文件,其中包含要解析和提取的 mime-types 的配置。
在 Jackrabbit 2.4 中,您应该能够从 repository.xml 中设置 tika-config.xml 的位置。
搜索索引配置中的正确参数应该类似于:
<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex">
<param name="path" value="${wsp.home}/index"/>
<param name="supportHighlighting" value="true"/>
<param name="tikaConfigPath" value="${wsp.home}/tika-config.xml"/>
</SearchIndex>
【讨论】: