【发布时间】:2021-07-27 22:55:15
【问题描述】:
我阅读了一些资源,声称 Spark 读取操作通常是惰性的。但是我已经运行了一些在 csv 读取步骤上花费了很长时间的工作。然后我读了这篇文章,说 csv read 是一个急切的操作[1]。你有更明确的参考答案吗?谢谢!
1.https://towardsdatascience.com/a-brief-introduction-to-pyspark-ff4284701873
尽量减少急切操作:为了使您的管道尽可能可扩展,最好避免将完整数据帧拉入内存的急切操作。我注意到读取 CSV 是一项急切的操作,我的解决方法是将数据帧保存为 parquet,然后从 parquet 重新加载它以构建更具可扩展性的管道。
【问题讨论】:
-
这是一个懒惰的评估者
标签: apache-spark pyspark apache-spark-sql