【发布时间】:2020-05-06 21:54:17
【问题描述】:
我对 Hadoop 的工作原理有一个很好的了解,因为我研究了内部部署模型,因为这是每个人都学习的方式。从这个意义上说,顶层的想法相当简单。我们有一组机器(节点),我们在每台机器上运行某些进程,然后以这样一种方式配置这些进程,使整个事物开始表现为一个单一的逻辑实体我们称之为 Hadoop (YARN) 集群。这里 HDFS 是集群中所有机器的单独存储之上的逻辑层。但是当我们开始考虑云中的同一个集群时,这就变得有点混乱了。以 HDInsight Hadoop 集群为例,假设我已经有一个包含大量文本数据的 Azure 存储帐户,并且我想做一些分析,因此我继续在与存储帐户相同的区域中构建一个 Hadoop 集群。现在 Hadoop 背后的整个想法是处理最接近数据存在的位置。在这种情况下,当我们创建 Hadoop 集群时,一堆 Azure 虚拟机开始在幕后使用它们自己的底层存储(尽管在同一个区域)。但是,在创建集群时,我们确实指定了一个默认存储帐户和一些其他存储帐户,这些帐户要附加到要处理的数据所在的位置。因此,理想情况下,要处理的数据需要存在于虚拟机的磁盘上。这个东西在 Azure 中是如何工作的?我猜虚拟机创建的磁盘实际上是指向 azure 存储帐户的指针(默认 + 附加)?这部分没有得到很好的解释,而且非常多云。所以很多人,包括我自己,当他们在学术上学习经典的本地 Hadoop 模型并开始在现实世界中使用基于云的集群时,总是一头雾水。如果我们可以直接从 Azure 门户的集群概览页面看到有关这些虚拟机的更多信息,这将有助于理解。我知道它在 Ambari 中是可见的,但 Ambari 又对 Azure 视而不见,它是一个独立的组件,所以不是很有帮助。
【问题讨论】:
标签: azure-hdinsight