【问题标题】:Index Hive table data in Parquet format to Cloudera Search/ Solr以 Parquet 格式将 Hive 表数据索引到 Cloudera Search/Solr
【发布时间】:2017-10-12 17:30:19
【问题描述】:

在启用 Kerberos 的 Cloudera 集群中,我想将具有 Parquet 数据格式的 Hive 表中的数据索引到 Cloudera Search(Solr)。实现这一目标的最佳方法是什么?数据可能约为 10-20 百万。

到目前为止,我找到了两种方法- 1. 为 Parquet 使用 Map reduce 索引工具和 morphlines(如果我能在这里得到一些帮助会很棒) 2. 使用自定义 hive serde,https://github.com/lucidworks/hive-solr,不确定这是否适用于更高的 hive 版本。

是否有任何其他机制来索引这些数据。

【问题讨论】:

    标签: hadoop solr hive parquet cloudera-cdh


    【解决方案1】:

    根据Cloudera Search Guide - MapReduce Indexing,1.) 方法似乎对我有好处。

    是否有任何其他机制来索引这些数据。

    不确定是否可以使用ORC's file native-indexes

    【讨论】:

      猜你喜欢
      • 2017-03-01
      • 2021-08-15
      • 2019-01-31
      • 1970-01-01
      • 1970-01-01
      • 2023-03-19
      • 2016-09-18
      • 1970-01-01
      相关资源
      最近更新 更多