这是 Spark/Apache Drill 的用例吗？答案

【问题标题】：Is this a use case for Spark/Apache Drill?这是 Spark/Apache Drill 的用例吗？
【发布时间】：2014-11-12 09:10:37
【问题描述】：

我有两种数据-

1) 无模式（不完全无模式，但列会随着时间的推移不断增加，我们不希望我们的加载/发布作业在模式更改时发生更改）。此数据现在存储在 key-val storage 中。密钥数约为 1000。对数约为 7 亿

2) RDBMS 表 - 一组表，每个表都有数百万行。

我需要创建一个数据存储，允许对上述所有数据进行分析（最好使用 SQL）。我正在研究这个问题的一些解决方案，并且觉得 Spark 和 Apache Drill 之类的可以解决这个问题。这是 Spark-Shark 的正确用例吗？我可以在这个用例中使用哪些其他数据存储/解决方案 - Cassandra？ MongoDB？

谢谢。

【问题讨论】：

标签： mongodb apache-spark cassandra apache-drill bigdata

【解决方案1】：

作为 Drill 的贡献者，我会根据 Drill 的功能给出答案 -
1. 是的，Drill 非常适合无模式文件，它可以即时识别文件模式。
2. Drill 已经具备查询 Mongo 和 HBase 的能力。 RDBMS 和 Cassandra 还没有，但在路线图中。

【讨论】：