将 Solr (4.8.1) 指向目录 (Windows 7)答案

【问题标题】：Pointing Solr (4.8.1) to a Directory (Windows 7)将 Solr (4.8.1) 指向目录 (Windows 7)
【发布时间】：2014-08-04 12:10:57
【问题描述】：

我正在为文档目录（文件类型，例如：MS Word、PDF、.txt、PowerPoint 等）设置搜索系统。

文档目录存储在我的网络本地。

我已在我的机器上启动并运行 Apache Solr（管理员窗格可从 localhost 端口 8983 查看和访问）。

我现在需要索引目录中文档的内容和标题，并通过我的 Solr 服务器使其可搜索。

接下来我要去哪里？ ---更具体地说---

是否有我需要集成的开源索引技术或 Solr 可以自行索引文档？
如何让 Solr 专门在此目录中搜索？（要么通常，在我的硬盘驱动器/本地网络上的目录中）

【问题讨论】：

Solr 不会自行索引。外部流程必须将文档发布到 Solr。看看 Apache Nutch，它是一个命令行网络爬虫，但它也可以配置为爬取本地文件系统（参见 FAQ）。
谢谢！自从做了更多自己的研究后，我发现 Nutch 是 Solr 的首选爬虫 - 尽管我还没有配置它。
事实证明 - 二进制 solr 下载附带了几种允许手动索引的技术 - 使用 ExtractingRequestHandler 和命令行命令 java -Dauto -jar post.jar 和 java -Dauto -Drecursive -jar post.jar

标签： apache solr indexing elasticsearch information-retrieval

【解决方案1】：

您可以使用Solr Cell（以前称为ExtractingRequestHandler）

它建立在Apache Tika Project 之上。

关于 Solr Cell：

关键概念

使用 Solr Cell 框架时，保持记住以下：

Tika 将自动尝试确定输入文档类型（Word、PDF、HTML）并适当地提取内容。如果你喜欢，你可以显式地为 Tika 指定一个 MIME 类型 stream.type 参数。

Tika 的工作原理是生成一个 XHTML 流，并将其提供给 SAX ContentHandler。 SAX 是许多人实现的通用接口
不同的 XML 解析器。如需更多信息，请参阅
http://www.saxproject.org/quickstart.html。

Solr 然后响应 Tika 的 SAX 事件并创建要索引的字段。

Tika 根据 DublinCore 等规范生成标题、主题和作者等元数据。有关支持的文件类型，请参阅
http://tika.apache.org/1.5/formats.html。

Tika 将所有提取的文本添加到内容字段。该字段在 schema.xml 中定义为“存储”。它也被复制到文本中具有 copyField 规则的字段。

您可以将 Tika 的元数据字段映射到 Solr 字段。您还可以提升这些字段。

您可以为字段值传入文字。文字将覆盖 Tika 解析的值，包括 Tika 元数据对象中的字段， Tika 内容字段，以及任何“捕获的内容”字段。

您可以将 XPath 表达式应用于 Tika XHTML 以限制生成的内容。

Solr Cell 上的 wiki 页面有教程和配置信息。

【讨论】：