【问题标题】:Is this a use case for Spark/Apache Drill?这是 Spark/Apache Drill 的用例吗?
【发布时间】:2014-11-12 09:10:37
【问题描述】:

我有两种数据-

1) 无模式(不完全无模式,但列会随着时间的推移不断增加,我们不希望我们的加载/发布作业在模式更改时发生更改)。此数据现在存储在 key-val storage 中。密钥数约为 1000。对数约为 7 亿

2) RDBMS 表 - 一组表,每个表都有数百万行。

我需要创建一个数据存储,允许对上述所有数据进行分析(最好使用 SQL)。我正在研究这个问题的一些解决方案,并且觉得 Spark 和 Apache Drill 之类的可以解决这个问题。这是 Spark-Shark 的正确用例吗?我可以在这个用例中使用哪些其他数据存储/解决方案 - Cassandra? MongoDB?

谢谢。

【问题讨论】:

    标签: mongodb apache-spark cassandra apache-drill bigdata


    【解决方案1】:

    作为 Drill 的贡献者,我会根据 Drill 的功能给出答案 -
    1. 是的,Drill 非常适合无模式文件,它可以即时识别文件模式。
    2. Drill 已经具备查询 Mongo 和 HBase 的能力。 RDBMS 和 Cassandra 还没有,但在路线图中。

    【讨论】:

      猜你喜欢
      • 2015-06-29
      • 2016-05-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-06-21
      • 2018-08-29
      • 2016-08-18
      • 1970-01-01
      相关资源
      最近更新 更多