【发布时间】:2014-07-15 06:19:54
【问题描述】:
我是 hadoop 的新手。我对谁拆分输入文件感到困惑。假设我有一个 200 mb 的文件,块大小是 64 mb。所以我们总共需要 4 个块乘以复制因子。谁拆分文件以及客户端如何使用拆分文件才能写入数据节点。
如果可能,请向我提供此信息的链接?我尝试使用谷歌搜索,但未能成功找到有关 hadoop 架构的详细分步说明。有几个网站,但缺少详细信息。
【问题讨论】:
标签: hadoop architecture hdfs
我是 hadoop 的新手。我对谁拆分输入文件感到困惑。假设我有一个 200 mb 的文件,块大小是 64 mb。所以我们总共需要 4 个块乘以复制因子。谁拆分文件以及客户端如何使用拆分文件才能写入数据节点。
如果可能,请向我提供此信息的链接?我尝试使用谷歌搜索,但未能成功找到有关 hadoop 架构的详细分步说明。有几个网站,但缺少详细信息。
【问题讨论】:
标签: hadoop architecture hdfs
尽管多年来有些细节发生了变化,但这两个文档(由参与 HDFS 早期开发的人员撰写)很好地描述了 HDFS 中的工作原理:
回答您的具体问题:HDFS 中间件(特别是 HDFS 客户端组件)在上传之前将文件拆分为块,并在您将文件下载到客户端时合并块。这对用户是完全透明的。
【讨论】: