【发布时间】:2019-02-24 11:46:09
【问题描述】:
我正在尝试比较 SparkSql on Parquet 和 Phoenix on HBase 之间的性能。 我正在执行的查询具有连接和聚合 我尝试检查 Parquet 性能的 Spark Sql 的方法是执行以下操作:
spark.time(sql("some sql").show)
我的问题是:
- 这是测试所需时间的正确和最简单的方法吗? Spark Sql 执行
- 我直接执行凤凰查询 在 Spark Sql 中。有什么办法可以对它进行一些优化吗?
【问题讨论】:
-
这里有一篇关于它的好帖子:db-blog.web.cern.ch/blog/luca-canali/…
-
df.show() 从结果集中提取不超过 20 行。根据生产其余部分的成本,它可能会使测量结果出现偏差。还有另一个版本的 show 接受要显示的最大行数,如果将参数设置为接近实际行数,这可能会导致更准确的结果。