【发布时间】:2021-10-05 19:21:50
【问题描述】:
我正在尝试了解考拉的内部运作方式。我使用的每个教程都向我展示了三个概念
- Spark 数据帧
- 内部框架
- 考拉数据框
据我了解,spark dataframe是典型的分布式spark dataframe。现在,这个 spark 数据框需要以 pandas 数据框的形式呈现,以使概念更加清晰,这就是内部框架概念的来源。内部框架保留了诸如 spark 列名 --> pandas 列名和有关信息的映射。指数等
看起来 koalas 数据帧只是一个逻辑概念,人们可以将其理解为 spark 数据帧的解析输出,内部帧提供解析器。它是 spark 数据帧的抽象层,有助于使 spark 数据帧适应 koalas API(熊猫风格)
对 koalas 数据帧的每个 API 调用都会创建一个新的内部帧,并且会创建或不创建新的 spark 数据帧。
但是,我也看到了这样的图像:
这就是我的困惑所在。创建或不创建新的考拉数据框是什么意思?考拉数据框到底是什么?以第一张图片为例,在应用kdf.dropna(...,inplace=True)之类的操作时,在改变内部frame和spark dataframe的同时保持koalas dataframe不变是什么意思?
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql spark-koalas