【问题标题】:index a large number of xml files to solr 5将大量 xml 文件索引到 solr 5
【发布时间】:2016-01-26 16:19:37
【问题描述】:

我正在尝试将大约 100 万个 xml 文件索引到 Solr 5。我可以想到几种方法:

  1. 将所有xml文件转储到一个目录中,然后使用post.jar
  2. 在我看来,数据导入处理程序也可以用于递归导入 xml 文件

还有其他方法吗?

【问题讨论】:

  • 你可以用你喜欢的语言制作你自己的索引器,它会解析 xml 文件,进行你可能想要的任何修改,然后使用 solr 客户端库将它们发送到 solr 服务器。
  • 查看这篇博文andornot.com/blog/post/…

标签: solr solr5


【解决方案1】:

您的问题是如何使用 solr 索引一百万个 xml 文件。

即使具有递归文件夹结构,您也可以使用bin/post-工具。

如果它有足够的功能:很好。如果您需要更多特殊功能构建自己的索引器,尤其是使用solrj,这很容易。

如果您有足够的主内存,您可以使用DataImportHandlerFileListEntityProcessor。 “FileListEntityProcessor”首先收集所有文件,然后运行真正的索引。因此,在您的情况下,第一步将在您的主内存中放置一百万个“文件”实例。

【讨论】:

    猜你喜欢
    • 2011-06-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-07-22
    • 1970-01-01
    • 2013-06-18
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多