【发布时间】:2015-06-04 20:30:58
【问题描述】:
我们有一个用例,我们从数百个数据源下载大量(每天 100 GB)数据,对这些数据进行按摩和处理,然后通过 RESTful API 将这些数据公开给我们的客户。今天,基本数据大小约为。 20TB,预计未来会大幅增长。
对于按摩/处理部分,我们相信 spark 对我们来说是一个非常好的选择。现在,为了通过 API 公开处理/按摩的数据,一种选择是将处理后的数据存储到像 ElephantDB 这样的只读数据库中,并使 Web 服务与 ElephantDB 对话(至少这是 Nathan 在他的大数据书中提出的方式)。我只是想知道我们让 Web 服务实现使用 SparkSQL 来访问来自 Spark 的已处理数据会有什么影响。在这种情况下,架构/设计的危险是什么?
每个人都在谈论 Spark 速度快,以及使用 SparkSQL 进行交互式查询。但是,它是否已经处于通过 SparkSQL 服务大量 Web 服务查询的阶段,我们有非常严格的延迟 SLA 以每秒服务成百上千的 Web 服务请求?如果 Apache Spark 可以处理这个问题,我们就可以避免维护另一个系统,例如 ElephantDB 或 Cassandra 之类的。
想听听这个板上专家的意见。
【问题讨论】:
标签: web-services cassandra apache-spark apache-spark-sql