【发布时间】:2019-01-03 14:22:19
【问题描述】:
我有一个json文件的方向要读取,所以我使用以下代码:
test_filelist = os.listdir('myDir')
df_test_list = [pd.read_json( os.path.join('myDir',file),lines=True ) for file in test_filelist if file.endswith('json') ]
df_test = pd.concat(df_test_list)
我的direction的总大小是4.5G,但是当我使用top查看我的进程使用的内存时,我发现这个进程在读取完成时使用了30G。
为什么会这样?我只读取了4.5G的json文件,却使用了30G的内存,如何避免呢?
我打印了df_test.info(),它告诉我这个数据帧只使用了 177.7 MB 内存,为什么?
【问题讨论】:
标签: python json pandas machine-learning xgboost