【问题标题】:How to index all csv files in a directory with Solr?如何使用 Solr 索引目录中的所有 csv 文件?
【发布时间】:2015-10-22 13:39:55
【问题描述】:

给定一个目录,其中包含数百个制表符分隔的 csv 文件,每个文件的第一行都没有标题。这意味着我们将通过其他方式指定列名。这些文件可以位于本地磁盘或 HDFS 上。

索引这些文件最有效的方法是什么?

【问题讨论】:

    标签: hadoop indexing solr cloudera solrcloud


    【解决方案1】:

    如果你有很多文件,我认为有几种方法可以提高索引速度:

    首先,如果你的数据在本地磁盘,可以使用多线程建立索引,但是需要注意,每个线程都有自己的输出目录的索引。最后将它们合并成一个索引,以提高搜索速度。

    其次,如果你的数据在 HDFS 上,我认为使用 Hadoop MapReduce 建立索引是非常强大的。 另外 Pig 或 Hive 的一些 UDF 插件也可以很容易地建立索引,但是 你需要将你的数据转换成 hive 表或使 pig 架构,这些很简单!

    第三,为了更好地理解上述方法,也许你可以阅读 How to make indexing faster

    【讨论】:

    • 您可以在答案中使用列表标记以提高可读性。
    猜你喜欢
    • 2016-11-12
    • 1970-01-01
    • 1970-01-01
    • 2013-08-29
    • 1970-01-01
    • 2017-10-15
    • 1970-01-01
    • 2012-03-03
    • 1970-01-01
    相关资源
    最近更新 更多