【问题标题】:Hadoop on Azure using IaaSAzure 上的 Hadoop 使用 IaaS
【发布时间】:2018-01-26 19:22:59
【问题描述】:

我正在考虑使用 Azure 中的虚拟化环境为大数据分析设置 Hadoop 集群。由于数据量非常大,我正在考虑将数据存储在 Azure Data Lake Store 等二级存储中,而 Hadoop 集群存储将充当主存储。 我想知道,如何配置,以便当我创建 Hive 表和分区时,部分数据可以驻留在主存储中,其余的可以驻留在辅助存储中?

谢谢 问候, 马杜

【问题讨论】:

    标签: azure hadoop hortonworks-data-platform azure-data-lake


    【解决方案1】:

    默认情况下,您不能将文件系统与 Hive 表混合使用。 Hive 元存储仅包含一个用于数据库/表定义的文件系统位置。

    您可能会尝试使用 Waggle Dance 来设置联合 Hive 解决方案,但这可能比简单地允许 Hive 数据存在于 Azure 中的工作量太大

    【讨论】:

      【解决方案2】:

      我不了解 Hadoop 和 Hive,但您可以结合 Azure Data Lake Store (ADLS) 和 Azure SQL 数据仓库 (ADW),即在 ADW 中使用 Polybase 在 ADLS 中的“冷”数据上创建一个外部表以及您的“温暖”数据的内部表。 ADW 的优点是可以暂停。

      可以选择在顶部创建一个视图以组合外部和内部表。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2016-12-20
        • 1970-01-01
        • 1970-01-01
        • 2021-10-29
        • 1970-01-01
        • 2017-01-28
        • 2019-05-24
        • 2013-04-10
        相关资源
        最近更新 更多