【问题标题】:Spark SQL real time on Hive在 Hive 上实时 Spark SQL
【发布时间】:2015-09-23 06:26:21
【问题描述】:

我实际上是在问自己使用 Spark SQL 和 Hive 进行实时分析的性能。 我知道 Hive 是为批处理而创建的,Spark 用于进行快速查询。

但是,使用带有 Hive 的 Spark SQL 可以让我进行实时查询吗?或者它只会进行最快的查询,但不是实时的。 我应该使用其他数据仓库而不是 Hive,比如 Hbase 吗?

提前致谢, 弗洛里安

【问题讨论】:

  • Hive 和 HBase 是苹果和橘子,所以你可能需要澄清你需要做什么。如果您正在寻找在并发访问正常规模 MySQL 的意义上“实时”工作的东西,不,Hive/Spark 不会关闭。
  • 我需要为我的客户提供仪表板,其中包含有关销售的数据信息。因此,当他们想要访问那里的仪表板时,我的查询结果必须非常快。根据您所说,我需要了解在我的用例中不需要使用 Hive 和 Spark,对吗?我可能应该看看像 MemSQL 这样的问题?
  • 在 Hadoop 生态系统中,它可能是 Impala 之类的东西。如果您没有相当大的数据,则不需要 Hadoop & co。完全没有。

标签: hadoop apache-spark hive hdfs apache-spark-sql


【解决方案1】:

虽然 Spark 可以比 hive 快得多,但它可能仍然不是服务网站的理想解决方案。因此,Spark SQL 是否可以执行“实时”查询很大程度上取决于您认为实时的时间线类型、您的数据集是否足够小以缓存在内存中,以及您的查询是否能够利用分区。

【讨论】:

  • 好吧,我需要在网站上提供我的查询结果,所以当我说“实时”时,它必须是网站可以接受的。使用 Hbase 可能是比 hive 更好的选择?
  • 您的数据有多大?您需要服务什么样的查询(例如,您需要连接)?一些选项会尝试在 Spark 中缓存数据(请记住,这可以跨多个节点),或使用传统数据库(带阴影)。
  • 我的数据每年最多增长 1 TB,我需要进行联接。随着这样的数据不断增长,我认为传统数据库并不是最好的解决方案,因为我正在搜索“大数据”问题。我也想使用 ZoomData,所以我正在寻找一种兼容的技术。
  • 不确定 100%,因为我不知道数据,但使用 1TB/年你可以做到这一点,它不是很多数据,并且有一些想法在内存中加载什么你可以做到。我和你有同样的问题,但每天 1Tb !!!
猜你喜欢
  • 2016-12-13
  • 2016-07-11
  • 1970-01-01
  • 1970-01-01
  • 2015-07-23
  • 1970-01-01
  • 1970-01-01
  • 2016-09-08
  • 2015-08-17
相关资源
最近更新 更多