Python gzip - 提取 .csv.gz 文件 - 内存错误答案

【问题标题】：Python gzip - extracting .csv.gz file - memory errorPython gzip - 提取 .csv.gz 文件 - 内存错误
【发布时间】：2011-12-15 21:45:16
【问题描述】：

我尝试编写脚本以从 ftp 服务器访问 .csv.gz 文件，并将内容写入同一服务器上的 .csv 文件。只要文件小于 100mb，这种方法似乎就可以正常工作，但它会失败，导致内存错误。我无法找到仅提取 .csv 文件的方法，因此它逐行读取文件内容（元组列表）并将其写入新文件。

有没有更有效的方法来做到这一点，甚至是直接从 .csv.gz 文件中提取 .csv 文件的方法？

def gz_unzipper():

    hostname = "servername"
    directory = "path"
    input_file = directory + "filename.csv.gz"
    output_file = directory + "filename.csv"
    ftp = FTP(hostname)
    ftp.login (username, password)
    ftp.cwd(directory)

    f = gzip.open(input_file, 'r')
    gz_content = f.read()

    lines=csv.reader(StringIO.StringIO(gz_content))

    output_file = open(output_file, 'w')

    for line in lines:
        line  = repr(line)[1:-1]
        line = line.replace("'","")
        line = line.replace(" ","")

        output_file.write(line + "\n") 

    output_file.close  
    f.close()

【问题讨论】：

您能否添加一个堆栈跟踪（python 输出），说明它遇到 MemoryError 的位置？
@Super Nova 我的回答对您有帮助吗？

标签： python memory gzip extraction memory-efficient

【解决方案1】：

现在您正在一次读取整个文件，这对于小文件来说很好，但如果您有大量数据（显然）会导致问题。由于您正在逐行处理文件，因此您可以使用内置的 Python 迭代器来处理文件/csvfiles。这些通常实现为 lazy，这意味着它们仅在需要时读取数据。

尝试这样的事情（抱歉，未经测试）：

with gzip.open(input_file, 'r') as fin, open(output_file,'w') as fout:
    csv_reader = csv.reader(fin)
    csv_writer = csv.writer(fout)
    csv_writer.writerows(csv_reader)

【讨论】：