以 Parquet 格式将 Hive 表数据索引到 Cloudera Search/Solr答案

【问题标题】：Index Hive table data in Parquet format to Cloudera Search/ Solr以 Parquet 格式将 Hive 表数据索引到 Cloudera Search/Solr
【发布时间】：2017-10-12 17:30:19
【问题描述】：

在启用 Kerberos 的 Cloudera 集群中，我想将具有 Parquet 数据格式的 Hive 表中的数据索引到 Cloudera Search(Solr)。实现这一目标的最佳方法是什么？数据可能约为 10-20 百万。

到目前为止，我找到了两种方法- 1. 为 Parquet 使用 Map reduce 索引工具和 morphlines（如果我能在这里得到一些帮助会很棒） 2. 使用自定义 hive serde，https://github.com/lucidworks/hive-solr，不确定这是否适用于更高的 hive 版本。