Azure 上的 Hadoop 使用 IaaS答案

【问题标题】：Hadoop on Azure using IaaSAzure 上的 Hadoop 使用 IaaS
【发布时间】：2018-01-26 19:22:59
【问题描述】：

我正在考虑使用 Azure 中的虚拟化环境为大数据分析设置 Hadoop 集群。由于数据量非常大，我正在考虑将数据存储在 Azure Data Lake Store 等二级存储中，而 Hadoop 集群存储将充当主存储。我想知道，如何配置，以便当我创建 Hive 表和分区时，部分数据可以驻留在主存储中，其余的可以驻留在辅助存储中？

谢谢问候，马杜

【问题讨论】：

标签： azure hadoop hortonworks-data-platform azure-data-lake

【解决方案1】：

默认情况下，您不能将文件系统与 Hive 表混合使用。 Hive 元存储仅包含一个用于数据库/表定义的文件系统位置。

您可能会尝试使用 Waggle Dance 来设置联合 Hive 解决方案，但这可能比简单地允许 Hive 数据存在于 Azure 中的工作量太大

【讨论】：

【解决方案2】：

我不了解 Hadoop 和 Hive，但您可以结合 Azure Data Lake Store (ADLS) 和 Azure SQL 数据仓库 (ADW)，即在 ADW 中使用 Polybase 在 ADLS 中的“冷”数据上创建一个外部表以及您的“温暖”数据的内部表。 ADW 的优点是可以暂停。

可以选择在顶部创建一个视图以组合外部和内部表。

【讨论】：