【问题标题】:Low Latency data access in HDFS ,HadoopHDFS,Hadoop中的低延迟数据访问
【发布时间】:2017-09-22 05:47:46
【问题描述】:

我正在阅读有关大数据和 Hadoop 的教程,我在 HDFS 上找到了这两点

流式数据访问:读取整个数据集的时间比读取第一个数据集的延迟更重要。 HDFS 建立在一次写入和多次读取的模式之上。

&

低延迟数据访问:访问第一个数据所需时间非常短的应用程序不应使用 HDFS,因为它更重视整个数据而不是获取第一个记录的时间。

我很困惑,因为第一个说读取整个数据集的时间更重要,第二个说...不应该使用 HDFS,因为它重视整个数据

我不明白预期是什么?我是 Hadoop 新手。

【问题讨论】:

    标签: hadoop dataset hdfs


    【解决方案1】:

    流式数据访问:

    HDFS 基于“一次写入,多次读取”的原则。 主要关注点是以尽可能快的方式读取完整的数据集,这比花时间从数据集中获取单个记录更重要。

    根据 Hadoop:权威指南

    MapReduce 本质上是一个批处理系统,不适合交互式分析。您无法在几秒钟或更短的时间内运行查询并获得结果。查询通常需要几分钟或更长时间,因此最适合离线使用,因为没有人坐在处理循环中等待结果。

    MapReduce 非常适合需要以批处理方式分析整个数据集的问题。 RDBMS 适用于点查询或更新,其中数据集已被索引以提供相对少量数据的低延迟检索和更新时间。 MapReduce 适用于数据写入一次多次读取的应用程序,而关系数据库则适用于不断更新的数据集。

    延迟:请参考下面这个What is low latency access of data?

    【讨论】:

      猜你喜欢
      • 2013-09-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-05-11
      相关资源
      最近更新 更多