Pandas 处理大型 hmda 数据答案

【问题标题】：Pandas Working with large - hmda dataPandas 处理大型 hmda 数据
【发布时间】：2017-09-07 01:48:37
【问题描述】：

我正在尝试使用following data，但仍然出现内存错误。

如果我能够阅读整个 csv，我将能够通过执行以下操作来回答诸如每个 action_taken_name 的项目总数之类的问题：

df = pd.pread_csv('path/to/my_file.csv')
df.groupby('action_taken_name').agg({'action_taken_name':'count'})

考虑到内存限制，最聪明的方法是什么？

我不断遇到各种问题，觉得一定有更好的办法。

谢谢！

【问题讨论】：

【解决方案1】：

read_csv 有几种方法可以提供帮助。要么使用cols 只选择必要的列，要么使用chunksize 部分查看。

【讨论】：