【发布时间】:2020-06-24 10:26:11
【问题描述】:
在学习Scala中的Spark 2的过程中,我发现我们可以使用两种方式在SparkSQL中查询数据:
- spark.sql(SQL_STATEMENT) // 变量“spark”是 SparkSession 的一个实例
- DataSet/DataFrame.select/.where/.groupBy....
我的问题是它们之间的差异(功能、性能等)是什么? 我试图在互联网或他们的文档上找到anwser,但失败了,所以我想听听你的意见
【问题讨论】:
标签: scala apache-spark apache-spark-sql