【问题标题】:Pointing Solr (4.8.1) to a Directory (Windows 7)将 Solr (4.8.1) 指向目录 (Windows 7)
【发布时间】:2014-08-04 12:10:57
【问题描述】:

我正在为文档目录(文件类型,例如:MS Word、PDF、.txt、PowerPoint 等)设置搜索系统。

文档目录存储在我的网络本地。

我已在我的机器上启动并运行 Apache Solr(管理员窗格可从 localhost 端口 8983 查看和访问)。

我现在需要索引目录中文档的内容和标题,并通过我的 Solr 服务器使其可搜索。

接下来我要去哪里? ---更具体地说---

  • 是否有我需要集成的开源索引技术或 Solr 可以自行索引文档?
  • 如何让 Solr 专门在此目录中搜索? (要么 通常,在我的硬盘驱动器/本地网络上的目录中)

【问题讨论】:

  • Solr 不会自行索引。外部流程必须将文档发布到 Solr。看看 Apache Nutch,它是一个命令行网络爬虫,但它也可以配置为爬取本地文件系统(参见 FAQ)。
  • 谢谢!自从做了更多自己的研究后,我发现 Nutch 是 Solr 的首选爬虫 - 尽管我还没有配置它。
  • 事实证明 - 二进制 solr 下载附带了几种允许手动索引的技术 - 使用 ExtractingRequestHandler 和命令行命令 java -Dauto -jar post.jar 和 java -Dauto -Drecursive -jar post.jar

标签: apache solr indexing elasticsearch information-retrieval


【解决方案1】:

您可以使用Solr Cell(以前称为ExtractingRequestHandler

它建立在Apache Tika Project 之上。

关于 Solr Cell:

关键概念

使用 Solr Cell 框架时,保持 记住以下:

  • Tika 将自动尝试确定输入文档类型(Word、PDF、HTML)并适当地提取内容。如果 你喜欢,你可以显式地为 Tika 指定一个 MIME 类型 stream.type 参数。
  • Tika 的工作原理是生成一个 XHTML 流,并将其提供给 SAX ContentHandler。 SAX 是许多人实现的通用接口
    不同的 XML 解析器。如需更多信息,请参阅
    http://www.saxproject.org/quickstart.html
  • Solr 然后响应 Tika 的 SAX 事件并创建要索引的字段。
  • Tika 根据 DublinCore 等规范生成标题、主题和作者等元数据。有关支持的文件类型,请参阅
    http://tika.apache.org/1.5/formats.html
  • Tika 将所有提取的文本添加到内容字段。该字段在 schema.xml 中定义为“存储”。它也被复制到文本中 具有 copyField 规则的字段。
  • 您可以将 Tika 的元数据字段映射到 Solr 字段。您还可以提升这些字段。
  • 您可以为字段值传入文字。文字将覆盖 Tika 解析的值,包括 Tika 元数据对象中的字段, Tika 内容字段,以及任何“捕获的内容”字段。
  • 您可以将 XPath 表达式应用于 Tika XHTML 以限制生成的内容。

Solr Cell 上的 wiki 页面有教程和配置信息。

【讨论】:

    猜你喜欢
    • 2013-08-29
    • 2013-01-22
    • 2012-07-01
    • 2013-03-01
    • 2014-01-28
    • 1970-01-01
    • 2010-11-28
    • 2011-08-05
    • 1970-01-01
    相关资源
    最近更新 更多