【发布时间】:2019-03-20 18:48:05
【问题描述】:
我知道 Dataset 的优点(类型安全等),但我找不到任何与 Spark 数据集限制相关的文档。
Spark Dataset 是否不推荐而使用DataFrame 更好。
目前我们所有的数据工程流程都使用 Spark (Scala)DataFrame。
我们希望将Dataset 用于我们所有的新流程。所以了解Dataset 的所有限制/缺点会对我们有所帮助。
编辑:这与Spark 2.0 Dataset vs DataFrame 不同,后者解释了对Dataframe/Dataset 的一些操作。或其他问题,其中大多数解释了 rdd、dataframe 和 dataset 之间的差异以及它们是如何演变的。这是为了了解,何时不使用数据集
【问题讨论】:
-
这是一个奇怪的问题,因为它是前进的方向。
-
为什么会这样?应该有一些场景最适合spark dataframes,我们知道DataFrame是Dataset[Row]
-
无论如何我没有做负1。我不喜欢排。最终ds会占上风。如果我没记错的话,它可以使用 mapPartitions。它也混合了 rdd 的东西。
标签: apache-spark