【问题标题】:Pandas Working with large - hmda dataPandas 处理大型 hmda 数据
【发布时间】:2017-09-07 01:48:37
【问题描述】:

我正在尝试使用following data,但仍然出现内存错误。

如果我能够阅读整个 csv,我将能够通过执行以下操作来回答诸如每个 action_taken_name 的项目总数之类的问题:

df = pd.pread_csv('path/to/my_file.csv')
df.groupby('action_taken_name').agg({'action_taken_name':'count'})

考虑到内存限制,最聪明的方法是什么?

我不断遇到各种问题,觉得一定有更好的办法。

谢谢!

【问题讨论】:

    标签: python pandas csv


    【解决方案1】:

    read_csv 有几种方法可以提供帮助。要么使用cols 只选择必要的列,要么使用chunksize 部分查看。

    【讨论】:

      猜你喜欢
      • 2018-10-01
      • 1970-01-01
      • 2016-02-10
      • 2010-09-15
      • 2023-04-02
      • 2013-08-28
      • 2020-05-31
      • 2021-01-12
      相关资源
      最近更新 更多