【发布时间】:2014-08-04 12:10:57
【问题描述】:
我正在为文档目录(文件类型,例如:MS Word、PDF、.txt、PowerPoint 等)设置搜索系统。
文档目录存储在我的网络本地。
我已在我的机器上启动并运行 Apache Solr(管理员窗格可从 localhost 端口 8983 查看和访问)。
我现在需要索引目录中文档的内容和标题,并通过我的 Solr 服务器使其可搜索。
接下来我要去哪里? ---更具体地说---
- 是否有我需要集成的开源索引技术或 Solr 可以自行索引文档?
- 如何让 Solr 专门在此目录中搜索? (要么 通常,在我的硬盘驱动器/本地网络上的目录中)
【问题讨论】:
-
Solr 不会自行索引。外部流程必须将文档发布到 Solr。看看 Apache Nutch,它是一个命令行网络爬虫,但它也可以配置为爬取本地文件系统(参见 FAQ)。
-
谢谢!自从做了更多自己的研究后,我发现 Nutch 是 Solr 的首选爬虫 - 尽管我还没有配置它。
-
事实证明 - 二进制 solr 下载附带了几种允许手动索引的技术 - 使用 ExtractingRequestHandler 和命令行命令 java -Dauto -jar post.jar
和 java -Dauto -Drecursive -jar post.jar
标签: apache solr indexing elasticsearch information-retrieval