【发布时间】:2017-02-15 20:37:47
【问题描述】:
据我了解,Dask DataFrame 是处理表格数据之类的正确方法。
我在 PostgreSQL 中有一个表,我知道如何将它加载到 pandas.Dataframe。
我知道,odo 可用于将pandas.DataFrame 转换为 dask.dataframe。
但
这不是惰性操作:这种转换强制将整个 PostgeSQL 表加载到内存中,这很糟糕。我更喜欢一个一个或一个块地阅读项目。如何做到这一点?
- Cassandra 的类似问题。但 Cassandra 就像分布式存储,可以针对分布式访问进行优化。但是如何使用 Dask 做到这一点?
【问题讨论】:
-
您能否提供mcve 以帮助理解并希望回答您的问题?
标签: python postgresql dataframe cassandra dask