【问题标题】:How does HDInsight cluster maps to Azure Storage as HDFS?HDInsight 群集如何作为 HDFS 映射到 Azure 存储?
【发布时间】:2020-05-06 21:54:17
【问题描述】:

我对 Hadoop 的工作原理有一个很好的了解,因为我研究了内部部署模型,因为这是每个人都学习的方式。从这个意义上说,顶层的想法相当简单。我们有一组机器(节点),我们在每台机器上运行某些进程,然后以这样一种方式配置这些进程,使整个事物开始表现为一个单一的逻辑实体我们称之为 Hadoop (YARN) 集群。这里 HDFS 是集群中所有机器的单独存储之上的逻辑层。但是当我们开始考虑云中的同一个集群时,这就变得有点混乱了。以 HDInsight Hadoop 集群为例,假设我已经有一个包含大量文本数据的 Azure 存储帐户,并且我想做一些分析,因此我继续在与存储帐户相同的区域中构建一个 Hadoop 集群。现在 Hadoop 背后的整个想法是处理最接近数据存在的位置。在这种情况下,当我们创建 Hadoop 集群时,一堆 Azure 虚拟机开始在幕后使用它们自己的底层存储(尽管在同一个区域)。但是,在创建集群时,我们确实指定了一个默认存储帐户和一些其他存储帐户,这些帐户要附加到要处理的数据所在的位置。因此,理想情况下,要处理的数据需要存在于虚拟机的磁盘上。这个东西在 Azure 中是如何工作的?我猜虚拟机创建的磁盘实际上是指向 azure 存储帐户的指针(默认 + 附加)?这部分没有得到很好的解释,而且非常多云。所以很多人,包括我自己,当他们在学术上学习经典的本地 Hadoop 模型并开始在现实世界中使用基于云的集群时,总是一头雾水。如果我们可以直接从 Azure 门户的集群概览页面看到有关这些虚拟机的更多信息,这将有助于理解。我知道它在 Ambari 中是可见的,但 Ambari 又对 Azure 视而不见,它是一个独立的组件,所以不是很有帮助。

【问题讨论】:

    标签: azure-hdinsight


    【解决方案1】:

    有一个底层驱动程序可作为将 Azure 存储作为 HDFS 映射到 HDInsight 中运行的其他服务的桥梁。

    您可以在下面的官方页面中阅读有关此驱动程序功能的更多信息。

    https://hadoop.apache.org/docs/current/hadoop-azure/index.html

    如果您的 Azure 存储帐户是 ADLS Gen 2 (Azure Data Lake Storage Gen2) 类型,则使用的驱动程序不同,可以在以下官方页面下找到。这提供了 ADLS Gen2 的一些高级功能来增强您的 HDInsight 性能。

    https://hadoop.apache.org/docs/current/hadoop-azure/abfs.html

    最后,与您的本地 Hadoop 安装一样,HDInsight 也有一个本地 HDFS,它也部署在您的 HDInsight 群集 VM 硬盘驱动器上。您可以使用 URI 访问此本地 HDFS,如下所示。

    hdfs://mycluster/
    

    例如,您可以发出以下命令来查看本地 HDFS 根级别的内容。

    hdfs dfs -ls hdfs://mycluster/
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-07-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多