【发布时间】:2022-01-12 17:20:18
【问题描述】:
我正在尝试将 pyspark df 写成这样的镶木地板:
df.write.format("parquet").\
mode('overwrite').\
save('gs://my_bucket/my_folder/filename')
这个数据框有数百万行,但我之前已经能够在几分钟内编写一个类似的数据框。但是,这需要30+分钟,我只能看到它下面的_temporary/0/,没有别的。
我能够轻松地编写一个小数据框并查看它是否有效,但由于某种原因,这个没有。数据框似乎没有任何问题。
除了数据框的问题之外,是否还有其他原因导致它一直持续并且没有写入任何内容?其他类似大小的数据框没有问题。
【问题讨论】:
标签: python pyspark google-cloud-storage parquet