【发布时间】:2013-12-16 08:09:25
【问题描述】:
我正在尝试使用 TikaEntityProcessor 安排 Delta-import。完全导入工作正常,但 Delta-import 没有更新任何内容。也没有错误。 显示了这么多服务器日志,我无法弄清楚出了什么问题:
121151 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 开始增量收集。 121155 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 为实体运行 ModifiedRowKey():消息 121156 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 已完成实体的 ModifiedRowKey:获得的消息行:0 121156 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 为实体完成 DeletedRowKey:获得的消息行:0 121156 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 已完成实体的 parentDeltaQuery:消息 121156 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 为实体运行 ModifiedRowKey():消息 121157 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.JdbcDataSource û 使用 URL:jdbc:oracle:thin:@//172.16.29.92:1521/d11gr21 为实体消息创建连接 121176 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.JdbcDataSource û getConnection() 所用时间:19 121182 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 已完成实体的 ModifiedRowKey:获得的消息行数:1 121182 [qtp966396367-15] INFO org.apache.solr.handler.dataimport.DocBuilder û 为实体完成 DeletedRowKey:获得的消息行:0我的dataconfig.xml如下:
<document>
<entity name="messages" pk="BLOB_PK" transformer='DateFormatTransformer'
query="select * from BLOB_TEST"
deltaImportQuery="select * from BLOB_TEST where BLOB_PK='${dataimporter.delta.id}'"
deltaQuery="select BLOB_PK from BLOB_TEST where to_char(last_modified,'YYYY-MM-DD HH24:MI:SS') > '${dataimporter.last_index_time}' "
dataSource="db">
<field column ="BLOB_PK" name ="id" />
<field column="last_modified" dateTimeFormat="YYYY-MM-DD HH24:MI:SS" locale="en" />
<entity
name="message"
dataSource="dastream"
processor="TikaEntityProcessor"
url="message"
dataField="messages.MESSAGE"
format="text">
<field column="text" name="mxMsg" blob="true" />
</entity>
</entity>
</document>
当我从网络客户端手动运行 Delta 导入时,状态显示如下:
“状态消息”:{ “对数据源的请求总数”:“4”, “获取的总行数”:“3”, “跳过的文档总数”:“0”, "Delta Dump 开始": "2013-12-16 14:48:28", “识别三角洲”:“2013-12-16 14:48:28”, “获得的三角洲”:“2013-12-16 14:48:28”, “建筑文件”:“2013-12-16 14:48:28”, “更改文件总数”:“3”, “处理的文件总数”:“0”, “所用时间”:“0:0:0.50” }
【问题讨论】:
标签: solr apache-tika