【发布时间】:2017-12-15 03:37:24
【问题描述】:
我正在尝试将一个大的 json 文件(大约 4G)加载为 pandas dataframe,但以下方法不适用于大约 2G 的文件。有没有替代方法?
data_dir = 'data.json'
my_data = pd.read_json(data_dir, lines = True)
我尝试了ijson,但不知道如何将其转换为dataframe。
【问题讨论】:
-
你的内存是什么?你试过内置的
json.loads吗? -
你用的是32位还是64位的python?
-
-
对于上面的 cmets,我使用的是 8GB 的 64 位,我还剩下 55%,所以理想情况下它应该可以工作:)。无论如何,感谢您对
json.loads的建议,它现在正在工作。 -
不是因为磁盘上的文件是4GB,内存中的表示是4GB。 Python 为每个字符串创建一个对象,该对象可能比磁盘上的位置更多。
标签: python json pandas large-files ijson