在 Hibernate Search 3.3.0 Final 中索引 PDF 不起作用答案

【问题标题】：indexing PDF's in Hibernate Search 3.3.0 Final does not work在 Hibernate Search 3.3.0 Final 中索引 PDF 不起作用
【发布时间】：2014-12-11 15:11:02
【问题描述】：

我在索引 PDF 时遇到问题，因此在 Hibernate Search 的全文搜索功能方面存在问题。我正在尝试索引大约 3750 个对象。每个对象都有几个字段，包括我要索引的 2 个字符串：

@Field(index = Index.TOKENIZED, store = Store.YES)
@Column(name = "ANZEIGENAME")
private String anzeigeName;                     //  VARCHAR2(250),  
@Field(index = Index.TOKENIZED, store = Store.YES)
@Column(name = "BESCHREIBUNG")
private String beschreibung;                //  VARCHAR2(512),

还有一个字节[]字段，我想在这些 PDF 上为全文搜索编制索引

@Field(index = Index.TOKENIZED, store = Store.YES)
@FieldBridge(impl = FieldBridgeConverter.class)
@Lob
@Column(name = "PDFDATA")
private byte[] pdfData;     //  BLOB;

这就是我的 PDF 的 FieldBridge 的样子

public class FieldBridgeConverter implements StringBridge {    
        public String objectToString(final Object object) {    
            byte[] file = (byte[]) object;   
            return file.toString();
        }   
}

现在的问题是这 3750 个对象的总大小为 3.5 Gb。因此，在一个接一个地坚持之后，我的索引文件夹对于 3750 个对象的总大小为 1.5 mb。似乎有点奇怪，因为根据http://lucene.apache.org/core/ 索引文件约为文本大小的 20-30%。所以它应该至少在 500 mb 左右。

这是我的 persistence.xml：

<?xml version="1.0" encoding="UTF-8" ?>
<persistence xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://java.sun.com/xml/ns/persistence http://java.sun.com/xml/ns/persistence/persistence_2_0.xsd"
    version="2.0" xmlns="http://java.sun.com/xml/ns/persistence">
    <persistence-unit name="DlcHibernateDAO">
         <provider>org.hibernate.ejb.HibernatePersistence</provider>
         <jta-data-source>java:/DlcDS</jta-data-source>
    <!--    <class>servicepackage.DlcBO</class>-->
    <!--    <jta-data-source>java:/DownloadcenterDS</jta-data-source> -->
        <class>servicepackage.ClickBO</class>
        <class>servicepackage.DlcBO</class>
        <properties>
            <property name="hibernate.dialect" value="org.hibernate.dialect.Oracle10gDialect" />
            <property name="hibernate.show_sql" value="false" />
            <property name="hibernate.format_sql" value="false" />
            <property name="hibernate.use_sql_comments" value="false" />
            <property name="hibernate.generate_statistics" value="false" />
            <property name="hibernate.connection.characterEncoding"
                value="UTF-8" />
            <property name="hibernate.cache.provider_class" value="org.hibernate.cache.HashtableCacheProvider" />
            <!-- JBoss 7 uses Hibernate 3 module -->
            <property name="jboss.as.jpa.providerModule" value="org.hibernate:3" />
            <property name="hibernate.search.default.directory_provider"
                value="org.hibernate.search.store.FSDirectoryProvider" />
            <property name="hibernate.search.default.indexBase" value="C:/Temp/indexes" />

        </properties>
    </persistence-unit>
</persistence>

我没有收到任何异常，所有对象都在我的数据库中。我无法更新 Hibernate Search 的版本，因为我必须使用 Hibernate 3。那么我在哪里搞砸了？

【问题讨论】：

标签： java hibernate pdf jpa hibernate-search

【解决方案1】：

我想第一步是看索引。由于您使用的是文件系统目录并且正在存储索引值，因此您可以使用 Luke 之类的东西来检查索引。一旦你这样做了，如果你发现很多乱码，我不会感到惊讶。问题是您将二进制格式 (pdf) 传递给 Lucene。 Lucene 不知道如何处理 pdf 文件。它仅适用于字符串。如果你想索引 pdf、word、xml 等，你需要某种转换器程序，它会从你的文件/数据中提取可索引的文本。 Apache Tika 就是这样一个工具，它可以处理很多不同的二进制数据格式，包括 pdf。

从 Hibernate Search 4.2 开始，实际上存在一个可以使用的内置 TikaBridge。但是，您需要升级。我认为 TikaBridge 代码可能会被反向移植（使用自定义网桥），但我宁愿继续升级 Hibernate ORM 和 Search。为什么不能升级 Hibernate？是什么让你坚持使用 Hibernate 3？

如果您想尝试反向移植/自定义网桥，请查看TikaBridge 源代码。它向您展示了基本方法。

【讨论】：

我无法升级，因为我的公司目前正在使用休眠 3。我以前试过 TikaBridge。我也没有工作/没有对索引进行任何更改
而且我的 FieldBridge 不是覆盖了字符串问题吗？还是我弄错了。