【问题标题】:What is the most efficient solution for hundreds download requests in minute for HDFS folder什么是 HDFS 文件夹一分钟内数百个下载请求的最有效解决方案
【发布时间】:2020-06-06 23:35:21
【问题描述】:

在我的公司,我们有一个不断学习的过程。 每 5-10 分钟我们在 HDFS 中创建一个新模型。 模型是几个文件的文件夹:

  1. 型号~1G(二进制文件)
  2. 模型元数据 1K(文本文件)
  3. 模型特征 1K(csv 文件) ...

另一方面,我们有数百个模型服务实例,需要每 5-10 分钟将模型下载到本地文件系统并从中提供服务。 目前,我们正在使用我们的服务(java FileSystem 客户端)中的 WebFS,但它可能会为我们的 Hadoop 集群创建负载,因为它将请求重定向到具体的数据节点。

我们考虑使用 HTTPFs 服务。它有缓存功能吗?那么第一个请求会得到一个文件夹来服务内存,接下来的请求会使用已经下载的结果吗?

还有哪些其他技术/解决方案可用于此类用例?

【问题讨论】:

    标签: hadoop hdfs webhdfs httpfs


    【解决方案1】:

    我们找到了一个不错的解决方案。

    它可以用于 Hadoop 以减少读取负载或用于 Google/S3 存储桶以降低成本。

    我们只需设置几个 Ngnix 服务器,并将它们配置为具有文件缓存 2 分钟的代理。

    这样,只有 Ngnix 机器会从 Hadoop 集群下载数据。

    所有服务机器(可能有数百台)将从 Nginx 服务器中提取数据,这些数据已经被缓存

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2010-09-27
      • 2019-04-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-01-01
      相关资源
      最近更新 更多