【发布时间】:2023-03-06 07:24:01
【问题描述】:
我正在研究 Hadoop 和 MapReduce(我是初学者!)并且有一个关于 HDFS 的简单问题。我对 HDFS 和 MapReduce 如何协同工作有点困惑。
假设我有来自系统 A 的日志、推文和来自系统 B 的一堆文档。当这些文件被加载到 Hadoop/HDFS 中时,这些是全部扔到一个大的 HDFS 存储桶中,还是会有 3 个区域(对于想要一个更好的词)?如果是,正确的术语是什么?
这些问题源于理解如何执行 MapReduce 作业。例如,如果我只想专注于日志,是否可以这样做,或者是否所有作业都针对存储在集群上的整个内容执行?
感谢您的指导! TM
【问题讨论】: