【问题标题】:solr binary files content indexed from datase从数据库索引的 solr 二进制文件内容
【发布时间】:2013-03-06 20:50:48
【问题描述】:


大家好,


我想知道是否有人可以帮助我解决这个问题。我是 solr 的新手,我正在尝试索引二进制文件,例如 .pdf、.docx ... 问题是我的 solr 配置索引文件但是当我运行查询时它不显示驻留在文件中的内容.


我使用的是默认的 schema.xml。

对于 data-config.xml,我使用的是这个配置:

<dataConfig>
 <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"
                     url="jdbc:mysql://localhost:3306/db" 
                     user="Iam" batchSize="-1"/>
 <document>
     <entity name="data" datasource="mysql" recursive="true"
          query="select id, post, guid from posts'"
          >


        <field column="guid" name="content"/>
     </entity>
 </document>
</dataConfig>


在 solrconfig.xml 中:

 <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">data-config.xml</str>
    </lst>
  </requestHandler>

<requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="lowernames">true</str>
      <str name="uprefix">ignored_</str>
 </lst>
  </requestHandler>


我希望有人能给我一些建议。提前致谢。

【问题讨论】:

    标签: solr


    【解决方案1】:

    如果您使用 DIH,则可以使用 Tika 集成来索引丰富的内容文档,这些文档可以作为 blob 字段保存在文件系统或数据库中。

    Solr 已经通过TikaEntityProcessor 提供了 Tika 和 DIH 的集成

    集成 - SOLR-1358
    Blob 处理 - SOLR-1737

    【讨论】:

    • 您好 Jayendra,非常感谢您的回复。但是,我仍然坚持从存储在我的数据库中的二进制文件中提取内容。我按照您给我的链接中的说明进行操作,但它对我不起作用。还有什么我可能会遗漏的吗?
    猜你喜欢
    • 1970-01-01
    • 2012-07-05
    • 2012-01-16
    • 2018-10-01
    • 1970-01-01
    • 2023-04-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多