【发布时间】:2015-08-20 08:22:22
【问题描述】:
我们正在寻找一种工具(最好是开源的),它可以帮助我们实时执行复杂的查询(高级过滤和连接,不需要完整的 SQL)。
假设所需的所有数据都适合内存,并且我们希望尽可能避免 map reduce 工具的开销。
更具体地说,我们需要加载单个表的n个分区,并通过聚集列将它们连接起来。
Variables Table:
Variable ID: Partition key
Person ID: Clustering key
Variable Value
Desired output columns:
Person ID, Variable 1 Value, Variable 2 Vale, ..., Variable N Value
我们可以通过内存中的 load-filter-join 过程来实现它,但我们想知道是否有任何工具可以开箱即用地涵盖此用例并具有公平的性能。
我们测试过 Spark,但是 Spark C* 连接器的分区是基于主键的,所以每个变量 ID 会被加载到不同的 Spark 节点中,并且连接过程会非常慢(所有数据都会遍及 Spark 集群)。
有什么建议吗?已知工具?
【问题讨论】:
标签: cassandra