【发布时间】:2020-04-20 02:03:02
【问题描述】:
我正在尝试编写一个大熊猫数据框(形状 4247x10)
没什么特别的,只是使用下一个代码:
df_base = read_from_google_storage()
df_base.to_parquet(courses.CORE_PATH,
engine='pyarrow',
compression='gzip',
partition_cols=None)
我尝试使用不同的压缩方式、不同的 partition_cols 都失败了,但还是失败了。
我提到它适用于小型数据帧 (1000x10
Process finished with exit code 139 (interrupted by signal 11: SIGSEGV)
我正在使用的库:
pandas==0.25.3
pyarrow==0.15.1
【问题讨论】:
-
你能在本地写入或读取相同的 pandas 数据帧吗?
-
@NibrasHaider 在本地,它适用于 fastparquet,但对于 pyarrow 会出现同样的错误。
-
似乎谷歌存储无论如何都没有影响错误。我用 pyarrow 用另一个数据集 1500x7 在本地重现了错误