【发布时间】:2013-05-19 22:47:03
【问题描述】:
我正在使用来自 Lucene 4.2.0 演示 API 的示例源代码: http://lucene.apache.org/core/4_2_0/demo/overview-summary.html
我运行 IndexFiles.java 从 rtf、pdf、doc 和 docx 文件的目录创建索引。然后我运行 SearcFiles.java 并注意到我遇到了几个搜索失败的实例,即它没有返回包含我搜索的单词的文档。
我怀疑这与 Lucene 4.2.0 在没有额外自定义的情况下无法正确索引非 .txt 文件有关。
问题:IndexFiles.java 源代码 (Lucene 4.2.0) 能否正确索引 pdf、doc、docx 文件,因为它是在提供的链接中编写的?有没有人有关于如何编写该功能的示例或参考资料?
谢谢
【问题讨论】:
标签: search pdf lucene indexing .doc