【发布时间】:2019-09-12 08:12:48
【问题描述】:
我是 Spark 的新手,正在学习 Dataframe、操作和架构。在阅读 RDD 和 Dataframe 之间的比较时,我对 RDD 和 Dataframe 的数据结构感到困惑。以下是我的观察,如有错误请帮忙澄清/纠正
1)如果源数据是一个集群(例如:HDFS),RDD 以分布式方式(块)跨集群中的节点存储在计算机 RAM 中。
如果数据源只是单个 CSV 文件,则数据将分布到正在运行的服务器(如果是笔记本电脑)的 RAM 中的多个块中。我说的对吗?
2)block和partition之间有什么关系吗?哪一个是超集?
3)Dataframe:Dataframe 是否也以与 RDD 相同的方式存储?如果我将源数据单独存储到数据框中,是否会在后台创建 RDD?
提前致谢:)
【问题讨论】:
-
你可以在网上找到很多关于 Spark 的阅读材料。甚至 Apache Spark 文档也很详细。除此之外,您还可以参考jaceklaskowski.gitbooks.io/mastering-spark-sql
标签: scala apache-spark hdfs