【发布时间】:2013-08-13 04:05:56
【问题描述】:
我正在尝试打开一个巨大的文本文件 (1 GB) 并执行一些文本挖掘。
我愿意执行一些正则表达式搜索。
当我使用 read() 函数时,我收到了错误:
File "C:\Python33\lib\encodings\latin_1.py", line 26, in decode
return codecs.latin_1_decode(input,self.errors)[0]
MemoryError
我的代码是:
dataFile = open('data/AllData_2000001_3000000.txt', 'r', encoding="latin-1")
print(dataFile.read())
为了执行正则表达式搜索,打开文本的最佳方式是什么?
谢谢!
【问题讨论】:
标签: python regex text-mining