【发布时间】:2015-08-28 20:53:07
【问题描述】:
我使用 Elasticsearch 已经有一段时间了,但几乎没有使用 Cassandra 的经验。
现在,我有一个项目,我们想使用 spark 处理数据,但我需要决定是否应该使用 Cassandra 或 Elasticsearch 作为数据存储来加载我的数据。
在连接器方面,Cassandra 和 Elasticsearch 现在都有一个很好的连接器来加载数据,因此这不会成为决定因素。
决定胜负的因素是我在 Spark 中加载数据的速度。我的数据将近 20 TB。
我知道我可以使用 JMeter 运行一些测试并自己查看结果,但我想问问熟悉这两个系统的人。
谢谢
【问题讨论】:
-
问题是什么?
-
是的,这取决于数据检索工作量。 Cassandra 非常擅长按键检索部分数据,从 spark 中您可以只按下主键和聚集键上的过滤器,否则对于全表扫描(select * from table)不太好。详细描述我们您的用例,因为 cassandra 和 elasticsearch 都是非常“垂直”的 DBMS
-
我的用例非常简单,我需要每天使用 Spark 为不同的用户 (1M+) 生成报告。现在,我需要将所有用户的数据从 Cassandra 或 Elasticsearch 加载到 Spark,同时运行 Cassandra 和 Elasticsearch 是没有意义的。
标签: elasticsearch apache-spark cassandra-2.0 spark-cassandra-connector elasticsearch-hadoop