【发布时间】:2013-11-13 16:51:36
【问题描述】:
我正在使用大约 3.3 GB 的 Stata .dta 文件,因此它很大但不会太大。我对使用 IPython 很感兴趣,并尝试使用 Pandas 导入 .dta 文件,但发生了一些奇怪的事情。我的盒子有 32 GB 的 RAM,尝试加载 .dta 文件会导致所有 RAM 都被使用(大约 30 分钟后)并且我的计算机停止运行。这并不“感觉”正确,因为我可以使用外部包中的 read.dta() 在 R 中打开文件没问题,并且在 Stata 中处理文件很好。我使用的代码是:
%time myfile = pd.read_stata(data_dir + 'my_dta_file.dta')
我在 Enthought 的 Canopy 程序中使用 IPython。 '%time' 的原因是因为我有兴趣将其与 R 的 read.dta() 进行基准测试。
我的问题是:
- 是我做错了什么导致 Pandas 出现问题吗?
- 是否有将数据导入 Pandas 数据框的解决方法?
【问题讨论】:
-
您使用的是 64 位机器。会不会是你的 R 可能是 64 位版本和 Python 32 位?