【问题标题】:Use FTP Over Hadoop for Large Files使用 FTP Over Hadoop 处理大文件
【发布时间】:2018-05-15 14:47:33
【问题描述】:

我们想要一个能够存储大量大型 csv 文件(1000 个文件,每个文件每天 1GB)的系统。

并且有一些客户端应该连接到这个系统并下载 csv 文件

系统应该具有容错性和可扩展性...

我想到一个 Hadoop 集群并在其上运行一个 FTP 服务器...

Hadoop 适合这个项目吗?

如果不是,什么技术适合?

【问题讨论】:

    标签: hadoop ftp


    【解决方案1】:

    是的,Hadoop 框架适用于大文件(可能摄取的文件大小超过 256 MB 的块大小)。

    Hadoop 的主要优势在于它可以在廉价的硬件上运行。 Hadoop 在处理小文件(以 Kb 为单位)方面存在一些问题。

    Hadoop 提供容错功能,因为文件会在集群中复制 3 次(默认),可以增加或减少。

    Hadoop 允许跨节点分布式处理数据。

    它也很容易扩展。

    如果你想在 2 个 HDFS 集群之间进行复制,有 Distcp 进程,你 可以看下面的链接

    https://www.cloudera.com/documentation/enterprise/5-13-x/topics/cdh_admin_distcp_data_cluster_migrate.html

    【讨论】:

    • 如何通过 ftp 获取原始文件?这是使用 HDFS 的正常用例吗?
    • 如果你正在复制到另一个Hadoop集群,那么有Hadoop DistCp进程。否则,您必须复制到本地边缘节点,然后运行 ​​FTP。
    • 本地边缘节点看不懂?所有复制命令都应该在一个节点上运行?
    • 那么 Hadoop 平台将有助于真正快速处理。有很多可用的例子。还有 NOSQL 数据库可以帮助您在 HDFS 中存储结构化数据。
    • 您能否接受我的主要回答,以便对寻找相同信息的其他人有所帮助。谢谢。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-03-04
    • 2014-06-07
    • 2012-10-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多