【发布时间】:2021-03-02 07:26:38
【问题描述】:
我使用 48 核远程机器,但是对于大小为 (1009224, 232) 的 pandas 数据帧,如下所示的操作需要大量时间。实际上,我看不到 spark 的 web GUI 上的运行阶段。有什么想法或建议吗? [更新] 我的主要问题是我无法实现使用 48 核机器的所有可用内核。我想我的配置是错误的。此代码已执行但不在 48 核中。
from pyspark.sql import SparkSession
spark_session = SparkSession.builder.appName("rocket3") \
.config('spark.driver.memory', '30g')\
.config('spark.executor.memory', '30g')\
.config('spark.executor.cores', '40') \
.config('spark.cores.max', '40') \
.getOrCreate()
import time
start = time.time()
df_sp = spark_session.createDataFrame(x_df)
end = time.time()
print(end - start)
【问题讨论】:
标签: python pandas dataframe pyspark