【问题标题】:solr delta import not working with TikaEntityProcessorsolr delta import 不适用于 TikaEntityProcessor
【发布时间】:2013-12-16 08:09:25
【问题描述】:

我正在尝试使用 TikaEntityProcessor 安排 Delta-import。完全导入工作正常,但 Delta-import 没有更新任何内容。也没有错误。 显示了这么多服务器日志,我无法弄清楚出了什么问题:

121151 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 开始增量收集。 121155 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 为实体运行 ModifiedRowKey():消息 121156 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 已完成实体的 ModifiedRowKey:获得的消息行:0 121156 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 为实体完成 DeletedRowKey:获得的消息行:0 121156 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 已完成实体的 parentDeltaQuery:消息 121156 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 为实体运行 ModifiedRowKey():消息 121157 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.JdbcDataSource û 使用 URL:jdbc:oracle:thin:@//172.16.29.92:1521/d11gr21 为实体消息创建连接 121176 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.JdbcDataSource û getConnection() 所用时间:19 121182 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 已完成实体的 ModifiedRowKey:获得的消息行数:1 121182 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 为实体完成 DeletedRowKey:获得的消息行:0

我的dataconfig.xml如下:

 <document>

  <entity name="messages" pk="BLOB_PK" transformer='DateFormatTransformer'
    query="select * from BLOB_TEST"
    deltaImportQuery="select * from BLOB_TEST where BLOB_PK='${dataimporter.delta.id}'"
    deltaQuery="select BLOB_PK from BLOB_TEST where to_char(last_modified,'YYYY-MM-DD HH24:MI:SS') &gt; '${dataimporter.last_index_time}' "
    dataSource="db">
   <field column ="BLOB_PK" name ="id" />
   <field column="last_modified"  dateTimeFormat="YYYY-MM-DD HH24:MI:SS" locale="en"    />
     <entity 
         name="message" 
         dataSource="dastream"
          processor="TikaEntityProcessor"
         url="message"
         dataField="messages.MESSAGE"
         format="text">

        <field column="text" name="mxMsg" blob="true" />
        </entity>
     </entity>

</document>

当我从网络客户端手动运行 Delta 导入时,状态显示如下:

“状态消息”:{ “对数据源的请求总数”:“4”, “获取的总行数”:“3”, “跳过的文档总数”:“0”, "Delta Dump 开始": "2013-12-16 14:48:28", “识别三角洲”:“2013-12-16 14:48:28”, “获得的三角洲”:“2013-12-16 14:48:28”, “建筑文件”:“2013-12-16 14:48:28”, “更改文件总数”:“3”, “处理的文件总数”:“0”, “所用时间”:“0:0:0.50” }

【问题讨论】:

    标签: solr apache-tika


    【解决方案1】:

    我能够让它工作。 我不得不从 data-config.xml 中删除以下内容:

    deltaImportQuery="select * from BLOB_TEST where BLOB_PK='${dataimporter.delta.id}

    我没有 ${dataimporter.delta.id} 的配置,所以可能是因为即使在检测到正确的添加行数之后也没有任何内容被索引。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-04-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多