【问题标题】:Hadoop on Azure using IaaSAzure 上的 Hadoop 使用 IaaS
【发布时间】:2018-01-26 19:22:59
【问题描述】:
我正在考虑使用 Azure 中的虚拟化环境为大数据分析设置 Hadoop 集群。由于数据量非常大,我正在考虑将数据存储在 Azure Data Lake Store 等二级存储中,而 Hadoop 集群存储将充当主存储。
我想知道,如何配置,以便当我创建 Hive 表和分区时,部分数据可以驻留在主存储中,其余的可以驻留在辅助存储中?
谢谢
问候,
马杜
【问题讨论】:
标签:
azure
hadoop
hortonworks-data-platform
azure-data-lake
【解决方案1】:
默认情况下,您不能将文件系统与 Hive 表混合使用。 Hive 元存储仅包含一个用于数据库/表定义的文件系统位置。
您可能会尝试使用 Waggle Dance 来设置联合 Hive 解决方案,但这可能比简单地允许 Hive 数据存在于 Azure 中的工作量太大
【解决方案2】:
我不了解 Hadoop 和 Hive,但您可以结合 Azure Data Lake Store (ADLS) 和 Azure SQL 数据仓库 (ADW),即在 ADW 中使用 Polybase 在 ADLS 中的“冷”数据上创建一个外部表以及您的“温暖”数据的内部表。 ADW 的优点是可以暂停。
可以选择在顶部创建一个视图以组合外部和内部表。