【发布时间】:2019-07-20 21:15:00
【问题描述】:
我有一个需要从 Web REST 服务加载大数据的客户端用例。这个 rest api 具有高度可扩展性,处理超过 10000 个并发请求显然没有问题。
我的问题是,我需要同时使用该服务(1000 个请求)并在短时间内加载大量数据。
问题:
1) Each request can return about 10-30MB of compressed json data.
2) My machine can't afford to make 1000+ requests on a 8 core 32G machine due to each thread blockking IO function
3) I'm looking for a distributed method to do this.
4) The service does provide pagination but this is very slow
5) I need a synchronous solution
我已经尝试过 AMS 服务并正在寻找类似 hadoop 的东西来执行此操作。虽然我的代码寻找一个 API 来包装这个 rest 服务来执行这种大数据加载。
【问题讨论】:
标签: java apache-spark mapreduce distributed