【发布时间】:2014-06-02 22:33:23
【问题描述】:
使用 HDInsight 并选择 Azure 存储 Blob 来存储需要计算的数据时,您仍然需要在预配新集群时选择数据节点的数量。如果您的数据存储在 Azure 存储 Blob 上,数据节点的数量有什么影响? Blob 中的数据是否实际复制到数据节点上?
【问题讨论】:
标签: azure hadoop hive azure-hdinsight
使用 HDInsight 并选择 Azure 存储 Blob 来存储需要计算的数据时,您仍然需要在预配新集群时选择数据节点的数量。如果您的数据存储在 Azure 存储 Blob 上,数据节点的数量有什么影响? Blob 中的数据是否实际复制到数据节点上?
【问题讨论】:
标签: azure hadoop hive azure-hdinsight
如果您将数据放在 Azure Blob 存储中,它会保留在那里,并直接从 Azure 存储中读取。
HDInsight 群集中的数据节点有两个用途。首先,它们运行实际的计算作业,这些作业直接从 Azure 存储中读取。这并不像 HDFS 用户听上去那么疯狂,因为 Azure 具有一致的底层结构,它可以保持良好的存储并接近计算。
其次,数据节点在其本地磁盘上运行 HDFS 文件系统。这通常仅用于 HDInsight 中的中间文件和 tmp 文件,因为它是暂时的(仅持续与集群一样长)。
因此,选择数据节点的数量本质上是选择您希望能够处理多少个作业运行节点(纱线应用程序容器或作业跟踪器插槽,具体取决于版本),并且在较小程度上选择了多少临时工作所需的空间。
【讨论】: