使用 FTP Over Hadoop 处理大文件答案

【问题标题】：Use FTP Over Hadoop for Large Files使用 FTP Over Hadoop 处理大文件
【发布时间】：2018-05-15 14:47:33
【问题描述】：

我们想要一个能够存储大量大型 csv 文件（1000 个文件，每个文件每天 1GB）的系统。

并且有一些客户端应该连接到这个系统并下载 csv 文件

系统应该具有容错性和可扩展性...

我想到一个 Hadoop 集群并在其上运行一个 FTP 服务器...

Hadoop 适合这个项目吗？

如果不是，什么技术适合？

【问题讨论】：

标签： hadoop ftp

【解决方案1】：

是的，Hadoop 框架适用于大文件（可能摄取的文件大小超过 256 MB 的块大小）。

Hadoop 的主要优势在于它可以在廉价的硬件上运行。 Hadoop 在处理小文件（以 Kb 为单位）方面存在一些问题。

Hadoop 提供容错功能，因为文件会在集群中复制 3 次（默认），可以增加或减少。

Hadoop 允许跨节点分布式处理数据。

它也很容易扩展。

如果你想在 2 个 HDFS 集群之间进行复制，有 Distcp 进程，你可以看下面的链接

【讨论】：