【发布时间】:2020-04-27 01:20:00
【问题描述】:
也许对 Spark 有更多经验的人可以帮助解决以下与序列化相关的问题::)
以下是否是对 Spark 中发生的序列化路径之一的准确描述:
RDD --> Bytestream (Java/Kryo)Dataset --> Bytestream (Encoders)
在这个talk 关于RDD、Dataframe 和Dataset 在spark 中,据说RDD 仍然是Spark 中发挥作用的基本数据结构,因此甚至Datasets 都建立在RDD
该语句应该如何解释?是不是表示Dataset的序列化路径是:
Dataset -->(encoders) RDD --> Bytestream(Java/kryo)
或者编码器是否也可以将 RDD 转换为字节流?
【问题讨论】:
-
这是一个巨大的话题。一个简单的概述是 RDD:s 使用普通的 java 对象。数据集 API(及其别名数据框)使用 tungsten,它的第一个化身使用专有的二进制行格式,第二代正在迁移到矢量化列格式。一个简短的解释spoddutur.github.io/spark-notes/…
标签: scala apache-spark