【问题标题】:dask export dataframe to remote storage (S3)dask 将数据帧导出到远程存储(S3)
【发布时间】:2019-08-23 05:27:29
【问题描述】:

使用时

dask_df.to_csv('s3://mybucket/mycsv.csv')

我收到一个错误,我应该安装s3fs

我确实将它安装在工作人员中(使用client.run()),但仍然出现错误。

所以我在我的机器上本地安装了 s3fs,然后它就可以工作了。
但这是否意味着数据首先发送到我的机器,然后才导出到 S3?而不是只在集群中处理?

我也收到KilledWorker 错误。导出由 dd.concat() 制作的两个 dask 数据帧组成。

【问题讨论】:

    标签: python amazon-s3 export-to-csv dask


    【解决方案1】:

    但这是否意味着数据首先发送到我的机器,然后才导出到 S3?而不是只在集群中处理?

    不,这只是意味着您的客户端进程还需要与 S3 通信才能进行设置。

    一般来说,你的worker和你的客户端进程上的软件环境应该是一样的。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-04-14
      • 1970-01-01
      • 2021-07-23
      • 1970-01-01
      • 2018-02-02
      • 1970-01-01
      • 2012-03-18
      • 2020-07-29
      相关资源
      最近更新 更多