【发布时间】:2020-09-22 06:27:52
【问题描述】:
在 PySpark(或 Spark)中,我们可以同时使用 RDD 和 DataFrame 结构。我应该选择其中之一吗?
我觉得有些工作对 RDD 来说很容易,而另一些工作对 DataFrame 来说很容易。什么是典型的编程约定?我想我使用了太多的.rdd 和.toDF()。
【问题讨论】:
-
这取决于要求或您尝试完成任务的方式。 RDD 和 DF 都在内存中。 Dataframes 使 SQL 查询更容易执行,RDD 可用于其他任务。这取决于您处理的是结构化数据还是非结构化数据。
标签: apache-spark pyspark apache-spark-sql