【问题标题】:Building a solr index using large text file使用大文本文件构建 solr 索引
【发布时间】:2015-03-19 11:33:53
【问题描述】:

我有一个如下格式的大文本文件:

00001,234234|234|235|7345
00005,788|298|234|735

您可以将, 之前的值视为键,而我想要做的是快速而肮脏的方法来查询这些键并找到每个键的结果集。在阅读了一下之后,我发现 solr 提供了一个很好的框架来做到这一点。

  • 起点是什么?
  • 能否使用python读取文件并建立此索引(搜索 引擎)使用 solr?
  • 是否有不同的机制来执行此操作?

【问题讨论】:

    标签: python solr


    【解决方案1】:

    您绝对可以使用 Python 库 pysolr 来做到这一点。如果数据是键值形式,您可以在 python 中读取它,如下所示: https://pypi.python.org/pypi/pysolr/3.1.0

    要对搜索进行更多控制,您需要修改 schema.xml 文件,使其具有文本文件中的键。

    在 SOLR 中提取数据后,您可以按照上面的链接进行搜索。

    【讨论】:

      【解决方案2】:

      您可以使用 UpdateCSV 处理程序直接在 Solr 中索引您的数据:您只需在 curl 调用中的 fieldnames 参数中指定目标字段名称(或者如果需要,将它们添加为文件的第一行更容易)。无需自定义代码。

      请记住检查| 分隔值的目标字段是否使用该字符拆分为标记。

      详情请见https://wiki.apache.org/solr/UpdateCSV

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2017-10-13
        • 1970-01-01
        • 2019-01-01
        • 1970-01-01
        • 2013-09-26
        • 2014-01-25
        • 1970-01-01
        相关资源
        最近更新 更多