【发布时间】:2021-01-28 04:25:55
【问题描述】:
我需要了解在使用 spark sql 时以下两种缓存方法之间是否有任何区别,以及另一种是否有任何性能优势(考虑到构建数据帧的成本很高,我想多次重复使用它/执行许多操作)?
1>在注册为临时表之前缓存原始数据帧
df.cache()
df.createOrReplaceTempView("dummy_table")
2>将dataframe注册为临时表并缓存表
df.createOrReplaceTempView("dummy_table")
sqlContext.cacheTable("dummy_table")
提前致谢。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql