HDInsight 群集如何作为 HDFS 映射到 Azure 存储？答案

【问题标题】：How does HDInsight cluster maps to Azure Storage as HDFS?HDInsight 群集如何作为 HDFS 映射到 Azure 存储？
【发布时间】：2020-05-06 21:54:17
【问题描述】：

我对 Hadoop 的工作原理有一个很好的了解，因为我研究了内部部署模型，因为这是每个人都学习的方式。从这个意义上说，顶层的想法相当简单。我们有一组机器（节点），我们在每台机器上运行某些进程，然后以这样一种方式配置这些进程，使整个事物开始表现为一个单一的逻辑实体我们称之为 Hadoop (YARN) 集群。这里 HDFS 是集群中所有机器的单独存储之上的逻辑层。但是当我们开始考虑云中的同一个集群时，这就变得有点混乱了。以 HDInsight Hadoop 集群为例，假设我已经有一个包含大量文本数据的 Azure 存储帐户，并且我想做一些分析，因此我继续在与存储帐户相同的区域中构建一个 Hadoop 集群。现在 Hadoop 背后的整个想法是处理最接近数据存在的位置。在这种情况下，当我们创建 Hadoop 集群时，一堆 Azure 虚拟机开始在幕后使用它们自己的底层存储（尽管在同一个区域）。但是，在创建集群时，我们确实指定了一个默认存储帐户和一些其他存储帐户，这些帐户要附加到要处理的数据所在的位置。因此，理想情况下，要处理的数据需要存在于虚拟机的磁盘上。这个东西在 Azure 中是如何工作的？我猜虚拟机创建的磁盘实际上是指向 azure 存储帐户的指针（默认 + 附加）？这部分没有得到很好的解释，而且非常多云。所以很多人，包括我自己，当他们在学术上学习经典的本地 Hadoop 模型并开始在现实世界中使用基于云的集群时，总是一头雾水。如果我们可以直接从 Azure 门户的集群概览页面看到有关这些虚拟机的更多信息，这将有助于理解。我知道它在 Ambari 中是可见的，但 Ambari 又对 Azure 视而不见，它是一个独立的组件，所以不是很有帮助。

【问题讨论】：

标签： azure-hdinsight

【解决方案1】：

有一个底层驱动程序可作为将 Azure 存储作为 HDFS 映射到 HDInsight 中运行的其他服务的桥梁。

您可以在下面的官方页面中阅读有关此驱动程序功能的更多信息。

https://hadoop.apache.org/docs/current/hadoop-azure/index.html

如果您的 Azure 存储帐户是 ADLS Gen 2 (Azure Data Lake Storage Gen2) 类型，则使用的驱动程序不同，可以在以下官方页面下找到。这提供了 ADLS Gen2 的一些高级功能来增强您的 HDInsight 性能。

https://hadoop.apache.org/docs/current/hadoop-azure/abfs.html

最后，与您的本地 Hadoop 安装一样，HDInsight 也有一个本地 HDFS，它也部署在您的 HDInsight 群集 VM 硬盘驱动器上。您可以使用 URI 访问此本地 HDFS，如下所示。

hdfs://mycluster/

例如，您可以发出以下命令来查看本地 HDFS 根级别的内容。

hdfs dfs -ls hdfs://mycluster/

【讨论】：