【发布时间】:2015-09-23 06:26:21
【问题描述】:
我实际上是在问自己使用 Spark SQL 和 Hive 进行实时分析的性能。 我知道 Hive 是为批处理而创建的,Spark 用于进行快速查询。
但是,使用带有 Hive 的 Spark SQL 可以让我进行实时查询吗?或者它只会进行最快的查询,但不是实时的。 我应该使用其他数据仓库而不是 Hive,比如 Hbase 吗?
提前致谢, 弗洛里安
【问题讨论】:
-
Hive 和 HBase 是苹果和橘子,所以你可能需要澄清你需要做什么。如果您正在寻找在并发访问正常规模 MySQL 的意义上“实时”工作的东西,不,Hive/Spark 不会关闭。
-
我需要为我的客户提供仪表板,其中包含有关销售的数据信息。因此,当他们想要访问那里的仪表板时,我的查询结果必须非常快。根据您所说,我需要了解在我的用例中不需要使用 Hive 和 Spark,对吗?我可能应该看看像 MemSQL 这样的问题?
-
在 Hadoop 生态系统中,它可能是 Impala 之类的东西。如果您没有相当大的数据,则不需要 Hadoop & co。完全没有。
标签: hadoop apache-spark hive hdfs apache-spark-sql