读取 utf-8 格式文件时出现内存错误答案

【问题标题】：Memory Errors when reading the file in utf-8 format读取 utf-8 格式文件时出现内存错误
【发布时间】：2012-03-12 15:54:29
【问题描述】：

我有一个 1GB 的 json 文件，我想在 python 中使用 simplejson 解析它。所以我写了一个简单的代码如下，它工作正常

import simplejson
f=open('stem.json','r')
content=f.read()
data=simplejson.loads(content)

上面代码的问题是它没有读取'utf-8'格式的数据

所以我重写了如下代码

import simplejson 
import codecs
f=codecs.open('stem.json','r',encoding='utf-8')
content=f.read()
data=simplejson.loads(content)

上述代码的问题是它不会执行，内核正在“杀死”程序。

我觉得这个问题很奇怪，因为没有编码它可以工作，当我尝试用编码读取它时会占用大量内存

谁能告诉我这里发生了什么？

【问题讨论】：

【解决方案1】：

您可以尝试正常打开文件并使用带有encoding 参数的simplejson.load()，而不是先将整个文件读入内存：

with open("stem.json", "r") as f:
    data = simplejson.load(f, encoding="utf-8")

正如我在上面的评论中所说，我认为真正的解决方案是使用不同的持久性后端，而不是序列化为 JSON。

【讨论】：

是的，如你所说。感谢您的回答，但正如您所说，我需要迁移到比 JSON 更持久的后端。问题是我的大文件以 JSON 格式正确结构化，这就是我将其序列化为 JSON 的原因