【问题标题】:Understanding more about Hadoop/HDFS Data Loading了解有关 Hadoop/HDFS 数据加载的更多信息
【发布时间】:2023-03-06 07:24:01
【问题描述】:

我正在研究 Hadoop 和 MapReduce(我是初学者!)并且有一个关于 HDFS 的简单问题。我对 HDFS 和 MapReduce 如何协同工作有点困惑。

假设我有来自系统 A 的日志、推文和来自系统 B 的一堆文档。当这些文件被加载到 Hadoop/HDFS 中时,这些是全部扔到一个大的 HDFS 存储桶中,还是会有 3 个区域(对于想要一个更好的词)?如果是,正确的术语是什么?

这些问题源于理解如何执行 MapReduce 作业。例如,如果我只想专注于日志,是否可以这样做,或者是否所有作业都针对存储在集群上的整个内容执行?

感谢您的指导! TM

【问题讨论】:

    标签: hadoop hdfs


    【解决方案1】:

    HDFS 是一个文件系统。与在本地文件系统中一样,您可以将所有日志和文档组织到多个文件和目录中。当您运行 MapReduce 作业时,您通常会指定一个包含输入文件的目录。因此,可以仅在系统 A 的日志或系统 B 的文档上执行作业。

    但是,映射器的输入由 InputFormat 指定。大多数实现源自读取文件的FileInputFormat。但是,可以实现自定义 InputFormats 以便从其他来源读取数据。您可以在此Hadoop Tutorial 中找到有关输入和输出格式的说明。

    【讨论】:

    • 这正是我正在寻找的细节。感谢您提供更多信息,我可以使用它继续阅读。
    猜你喜欢
    • 2010-11-06
    • 1970-01-01
    • 2018-07-17
    • 2016-08-04
    • 2019-04-11
    • 1970-01-01
    • 2014-08-24
    • 2010-09-17
    • 1970-01-01
    相关资源
    最近更新 更多