【发布时间】:2018-07-26 16:30:47
【问题描述】:
这里是 Spark 新手。 我最近开始在本地机器上使用以下命令在两个内核上使用 Spark:
pyspark --master local[2]
我有一个 393Mb 的文本文件,其中包含近一百万行。我想执行一些数据操作操作。我正在使用 PySpark 的内置数据框函数来执行简单的操作,例如 groupBy、sum、max、stddev。
但是,当我在 pandas 中对完全相同的数据集执行完全相同的操作时,pandas 似乎在延迟方面以巨大的优势击败了 pyspark。
我想知道这可能是什么原因。我有几个想法。
- 内置函数在序列化/反序列化过程中效率低下吗?如果是,它们的替代品是什么?
- 数据集是否太小以至于无法超过运行 spark 的底层 JVM 的开销成本?
感谢收看。非常感谢。
【问题讨论】:
-
对这么小的数据集使用 Apache Spark 是否有意义? Pandas 非常快,但无法扩展。您想使用它而不是 Spark,除非您遇到
MemoryError。 -
我完全同意。我目前正在尝试它。这就是这个问题的原因。
标签: python pandas apache-spark pyspark apache-spark-sql