在 Hive 上实时 Spark SQL答案

【问题标题】：Spark SQL real time on Hive在 Hive 上实时 Spark SQL
【发布时间】：2015-09-23 06:26:21
【问题描述】：

我实际上是在问自己使用 Spark SQL 和 Hive 进行实时分析的性能。我知道 Hive 是为批处理而创建的，Spark 用于进行快速查询。

但是，使用带有 Hive 的 Spark SQL 可以让我进行实时查询吗？或者它只会进行最快的查询，但不是实时的。我应该使用其他数据仓库而不是 Hive，比如 Hbase 吗？

提前致谢，弗洛里安

【问题讨论】：

Hive 和 HBase 是苹果和橘子，所以你可能需要澄清你需要做什么。如果您正在寻找在并发访问正常规模 MySQL 的意义上“实时”工作的东西，不，Hive/Spark 不会关闭。
我需要为我的客户提供仪表板，其中包含有关销售的数据信息。因此，当他们想要访问那里的仪表板时，我的查询结果必须非常快。根据您所说，我需要了解在我的用例中不需要使用 Hive 和 Spark，对吗？我可能应该看看像 MemSQL 这样的问题？
在 Hadoop 生态系统中，它可能是 Impala 之类的东西。如果您没有相当大的数据，则不需要 Hadoop & co。完全没有。

【解决方案1】：

虽然 Spark 可以比 hive 快得多，但它可能仍然不是服务网站的理想解决方案。因此，Spark SQL 是否可以执行“实时”查询很大程度上取决于您认为实时的时间线类型、您的数据集是否足够小以缓存在内存中，以及您的查询是否能够利用分区。

【讨论】：

好吧，我需要在网站上提供我的查询结果，所以当我说“实时”时，它必须是网站可以接受的。使用 Hbase 可能是比 hive 更好的选择？
您的数据有多大？您需要服务什么样的查询（例如，您需要连接）？一些选项会尝试在 Spark 中缓存数据（请记住，这可以跨多个节点），或使用传统数据库（带阴影）。
我的数据每年最多增长 1 TB，我需要进行联接。随着这样的数据不断增长，我认为传统数据库并不是最好的解决方案，因为我正在搜索“大数据”问题。我也想使用 ZoomData，所以我正在寻找一种兼容的技术。
不确定 100%，因为我不知道数据，但使用 1TB/年你可以做到这一点，它不是很多数据，并且有一些想法在内存中加载什么你可以做到。我和你有同样的问题，但每天 1Tb ！！！