【发布时间】:2016-07-16 03:10:59
【问题描述】:
documentation of the Dask package for dataframes 说:
Dask 数据帧的外观和感觉类似于 pandas 数据帧,但在操作上 使用多线程的大于内存的数据集。
但稍后在同一页面中:
一个 dask DataFrame 由多个内存中的 pandas DataFrames 组成 沿索引分隔。
Dask 是否按顺序从磁盘读取不同的 DataFrame 分区并执行计算以适应内存?它会在需要时将一些分区溢出到磁盘吗?一般来说,Dask 是如何管理内存 数据的磁盘 IO 来实现大于内存的数据分析的?
我尝试在 10M MovieLens 数据集上执行一些基本计算(例如平均评分),我的笔记本电脑(8GB RAM)开始交换。
【问题讨论】:
-
你可以考虑一个更详细的问题,关于你的电影镜头问题。
-
显然我的电影镜头问题是由 sep '::' 被 Pandas 解释为正则表达式引起的。 sed-ed 到 ';'现在它可以毫无问题地加载到主内存中。