HDFS，Hadoop中的低延迟数据访问答案

【问题标题】：Low Latency data access in HDFS ,HadoopHDFS，Hadoop中的低延迟数据访问
【发布时间】：2017-09-22 05:47:46
【问题描述】：

我正在阅读有关大数据和 Hadoop 的教程，我在 HDFS 上找到了这两点

流式数据访问：读取整个数据集的时间比读取第一个数据集的延迟更重要。 HDFS 建立在一次写入和多次读取的模式之上。

低延迟数据访问：访问第一个数据所需时间非常短的应用程序不应使用 HDFS，因为它更重视整个数据而不是获取第一个记录的时间。

我很困惑，因为第一个说读取整个数据集的时间更重要，第二个说...不应该使用 HDFS，因为它重视整个数据

我不明白预期是什么？我是 Hadoop 新手。

【问题讨论】：

【解决方案1】：

流式数据访问：

HDFS 基于“一次写入，多次读取”的原则。主要关注点是以尽可能快的方式读取完整的数据集，这比花时间从数据集中获取单个记录更重要。

根据 Hadoop：权威指南

MapReduce 本质上是一个批处理系统，不适合交互式分析。您无法在几秒钟或更短的时间内运行查询并获得结果。查询通常需要几分钟或更长时间，因此最适合离线使用，因为没有人坐在处理循环中等待结果。

MapReduce 非常适合需要以批处理方式分析整个数据集的问题。 RDBMS 适用于点查询或更新，其中数据集已被索引以提供相对少量数据的低延迟检索和更新时间。 MapReduce 适用于数据写入一次多次读取的应用程序，而关系数据库则适用于不断更新的数据集。

【讨论】：