【问题标题】:How do I decrease the memory used by a large list in python如何减少python中大型列表使用的内存
【发布时间】:2013-02-23 13:07:14
【问题描述】:

我正在编写一个程序,它工作正常,但是当它将数据库(一个 100MB 的文本文件)加载到一个列表时,它的内存使用量变为 700-800MB

用于将文件加载到列表的代码:

database = []
db = open('database/db.hdb')
dbcontent = db.read()
for line in dbcontent.split('\n'):
    line = line.split(':')
    database.append(line)

来自 db.hdb 的片段:

14200:917cb8a3d1d9eb24af6c5bcf3bf7e401:Trojan.Downloader-1420
7168:a105e2cc8148158cd048360eb847c7d0:Trojan.Downloader-1421
7168:c61ef67b5e7eef19ef732f55116742f6:Trojan.Downloader-1422
7168:851b6320148122104f50445ea2684c9f:Trojan.Downloader-1423
7168:ca128383c79a56d930eb4a7ff5026e31:Trojan.Downloader-1424
355204:4af89f8d219f94462cf2f8cb8eb4c6d7:Trojan.Bancos-2053
356984:2bfb53d76891059b79122e13d1537e4a:Trojan.Bancos-2054
363520:edbbdf497cda1ba79c06ea40673d963e:Trojan.Bancos-2055
367616:d85f719b032dbf39800d90ca881fd225:Trojan.Bancos-2056
370688:6cb572fd2452416dc4ea09e3ad917e66:Trojan.Bancos-2057
370688:ef34885677230061649d30ea66d7b0a1:Trojan.Bancos-2058
399360:8578b664706cfdc2f653680bac1b1b6e:Trojan.Bancos-2059
401408:de62af250b5a3e1ba1e9c517629383dd:Trojan.Bancos-2060
622592:8a236340c0a8c76343f6fb581314fadf:Trojan.Bancos-2061
622592:29f3499488ba1814c62fac3c2f3bda54:Trojan.Bancos-2062
622592:5d023bccf2ff097ccbc0ab0eab4a6ee7:Trojan.Bancos-2063
622592:3d6a25ed1f0e2001e72812ce1adf37d3:Trojan.Bancos-2064
622592:eaff242b601807e5805c189752d39124:Trojan.Bancos-2065
623104:8cd8e788d33cf40412d3346a525e4cce:Trojan.Bancos-2066
625152:25470d6895cb0e5c2e7181cb9a201ae0:Trojan.Bancos-2067
625152:436d574cef37b2e62d9b801b8fc2c4f1:Trojan.Bancos-2068
647168:51eb4e43f24cf511e6715cc8667babcd:Trojan.Bancos-2069

(完整文件有 ~1800000 行)

如何减少内存使用量

【问题讨论】:

  • 这取决于您要如何处理这些数据。您可能只是简单地逐个加载。或者购买更多内存。 :) 现在 800MB 不再是问题。
  • 除非我有一个 512MB ram 且不可升级的树莓派 :(,在我的 windows 电脑上没问题,但在树莓派上是
  • 另外,我看不出如何通过将数据库作为列表来实现有意义的事情:在列表中搜索任何内容都是线性时间——也就是说,如果你必须检查给定的签名在您的数据库中,您必须一项一项检查所有项目。您应该至少使用字典并使用签名字段作为键
  • 虽然我认为更简单的做法是使用 sqlite,并将您的数据放入单表 sql 数据库中。这样您就不会消耗内存,并获得更好的响应(sqlite3 和操作系统缓存都将为您提供性能)。

标签: python list


【解决方案1】:

您应该使用文件对象作为迭代器来减少文件的内存使用。然后,您可以分块处理数据库列表,而不是一起处理。例如:

results = []
database = []
for line in open("database/db.hdb"):
    line = line.split(':')
    #You could then manage database in chunks?
    database.append(line)
    if len(database) > MAX:
        #dosomething with database list so far to get result
        results.append(process_database(database))
        database = []
#do something now with individual results to make one result
combine_results(results)

【讨论】:

  • 谢谢!这减少了 300MB 使用的内存:D
【解决方案2】:

只要你不需要内存中的完整文件,你可以一次读取一行:

database = []
db = open('database/db.hdb')
line = db.readline()
while line:
    line = line.split(':')
    database.append(line)
    line = db.readline()

See here for details on file.readline()

【讨论】:

  • 这不会像你想象的那样做。 readline() 将下一行作为字符串返回,因此您的 for 循环将遍历该行中的字符。
  • 在 Python 中创建文件对象,以便它们可以用作 for 循环中的迭代器 - 请参阅批准的答案。
猜你喜欢
  • 2022-08-23
  • 1970-01-01
  • 1970-01-01
  • 2012-06-15
  • 1970-01-01
  • 2018-11-24
  • 2012-05-03
  • 1970-01-01
  • 2012-02-06
相关资源
最近更新 更多