将记录存储在 HDFS 或 HBase 中答案

【问题标题】：Store records on HDFS or in HBase将记录存储在 HDFS 或 HBase 中
【发布时间】：2015-11-04 22:48:57
【问题描述】：

我有以下场景：

我的问题与第二点有关 - 这些文件稍后会复制到 HDFS - 我担心存在大量小文件（例如 1MB）可能是个问题。

我的想法是将这些文件存储在数据库中，这样我就可以避免小文件的问题，并且还能够查询数据（为用户选择数据）。这是更好的方法吗？

如果答案是肯定的，我可以使用哪些数据库？所以我需要数据库是：

【问题讨论】：

【解决方案1】：

我认为 HBase 非常适合你的需要。

我也有“small file problem”，我使用 HBase 解决了它。

将小文件直接存储在 HDFS 中是一种不好的做法，可能会出现问题。

Apache HBase 是 Hadoop 数据库。当你需要随机时使用它，对您的大数据的实时读/写访问。这个项目的目标是托管非常大的表——数十亿行 X 数百万列——在商品硬件集群之上。

在我的情况下，我有很多小文件（200 Kb / 1 Mb），现在我将这些文件存储在一个表中，其中一些列作为标题/信息，一列用于文件的二进制内容和文件名作为键（文件名是 UUID）

【讨论】：

谢谢，这看起来很像我需要的。您能否提供更多有关您的体验的信息，您如何看待它的表现？你存储的数据有多大？我也听说过 Cassandra，你怎么看？ HBase 存在这么久了，它是否仍然处于活动状态（未过时）？
嗯，对于这个项目，我只需要存储小文件，不需要做其他操作。我还没有尝试过其他解决方案（如 Cassandra、Hive 等）。我正在存储和读取数十万个小文件，我对性能感到满意。它比直接将数据发送到 HDFS 更快。这是一个公司项目，所以我无法提供更多信息。 HBase 项目还活着，他们继续开发它（它是一个 apache 项目）