什么是 HDFS 文件夹一分钟内数百个下载请求的最有效解决方案答案

【问题标题】：What is the most efficient solution for hundreds download requests in minute for HDFS folder什么是 HDFS 文件夹一分钟内数百个下载请求的最有效解决方案
【发布时间】：2020-06-06 23:35:21
【问题描述】：

在我的公司，我们有一个不断学习的过程。每 5-10 分钟我们在 HDFS 中创建一个新模型。模型是几个文件的文件夹：

型号~1G（二进制文件）
模型元数据 1K（文本文件）
模型特征 1K（csv 文件） ...

另一方面，我们有数百个模型服务实例，需要每 5-10 分钟将模型下载到本地文件系统并从中提供服务。目前，我们正在使用我们的服务（java FileSystem 客户端）中的 WebFS，但它可能会为我们的 Hadoop 集群创建负载，因为它将请求重定向到具体的数据节点。

我们考虑使用 HTTPFs 服务。它有缓存功能吗？那么第一个请求会得到一个文件夹来服务内存，接下来的请求会使用已经下载的结果吗？

还有哪些其他技术/解决方案可用于此类用例？

【问题讨论】：

标签： hadoop hdfs webhdfs httpfs

【解决方案1】：

我们找到了一个不错的解决方案。

它可以用于 Hadoop 以减少读取负载或用于 Google/S3 存储桶以降低成本。

我们只需设置几个 Ngnix 服务器，并将它们配置为具有文件缓存 2 分钟的代理。

这样，只有 Ngnix 机器会从 Hadoop 集群下载数据。

所有服务机器（可能有数百台）将从 Nginx 服务器中提取数据，这些数据已经被缓存

【讨论】：