【发布时间】:2018-05-15 14:47:33
【问题描述】:
我们想要一个能够存储大量大型 csv 文件(1000 个文件,每个文件每天 1GB)的系统。
并且有一些客户端应该连接到这个系统并下载 csv 文件
系统应该具有容错性和可扩展性...
我想到一个 Hadoop 集群并在其上运行一个 FTP 服务器...
Hadoop 适合这个项目吗?
如果不是,什么技术适合?
【问题讨论】:
我们想要一个能够存储大量大型 csv 文件(1000 个文件,每个文件每天 1GB)的系统。
并且有一些客户端应该连接到这个系统并下载 csv 文件
系统应该具有容错性和可扩展性...
我想到一个 Hadoop 集群并在其上运行一个 FTP 服务器...
Hadoop 适合这个项目吗?
如果不是,什么技术适合?
【问题讨论】:
是的,Hadoop 框架适用于大文件(可能摄取的文件大小超过 256 MB 的块大小)。
Hadoop 的主要优势在于它可以在廉价的硬件上运行。 Hadoop 在处理小文件(以 Kb 为单位)方面存在一些问题。
Hadoop 提供容错功能,因为文件会在集群中复制 3 次(默认),可以增加或减少。
Hadoop 允许跨节点分布式处理数据。
它也很容易扩展。
如果你想在 2 个 HDFS 集群之间进行复制,有 Distcp 进程,你 可以看下面的链接
【讨论】: