【发布时间】:2016-12-01 16:13:02
【问题描述】:
我见过similar question 对此,但我认为我的困境在足以保证一个新问题的方式上有所不同。
我创建了一个函数,它打开一个 csv 文件并根据维度和指标列表将数据聚合到一个类似 json 的字典结构中。
问题是当我用它打开一个 0.97GB 的文件时,当我查看我的进程时,python 进程正在使用大约 1.02GB 的内存。请记住,我只选择文件中的一小部分字段,并且数据是聚合的,我认为它本质上应该更小。此外,字典变量是从函数返回的唯一东西,所以这不应该意味着它是函数运行后唯一留在内存中的东西吗?有谁知道为什么我的字典对象使用这么多内存?
**EDIT - 我也理解 csv.reader() 是一个生成器,所以我什至不会一次加载整个文件,所以它必须只是使用所有内存的字典对象?
我在 Windows 上使用 Python 2.7。
import json
import inspect
from pprint import pprint
import csv
from datetime import datetime
import sys
def jsonify_csv(fileString, dimensions, metrics, struc = {}):
with open(fileString, 'rb') as f:
reader=csv.reader(f)
headings = reader.next()
i = 0
for line in reader:
i+=1
row = {headings[i]:v for i, v in enumerate(line)}
pointer = struc
for dimension in dimensions:
if dimension == 'date':
val = str(datetime.strptime(row[dimension], "%d/%m/%Y").date().month)
else:
val = str(row[dimension])
pointer.setdefault(val, {})
pointer = pointer[val]
for metric in metrics:
pointer.setdefault(metric, 0.0)
try:
pointer[metric] += float(row[metric])
except ValueError:
pass
return struc
start = datetime.today()
dims = ['brand', 'source', 'affiliate', 'country', 'store', 'salesbundle', 'product', 'ordertype', 'returncode', 'supplier', 'category']
metrics = ['sales', 'qty', 'cogs', 'carriagereclaim', 'Carriage Charged Carrier', 'carriage_est', 'mktg_est', 'mktg_cost', 'royalty', 'finance', 'scrap_cost', 'mp_cost', 'budgetsales', 'budgetcosts', 'BSTD', 'budgetaftersales', 'budgetscrap', 'budgetcarriagerecovery', 'budgetcarriagepaid', 'budgetmetapack', 'budgetmarketing', 'budgetaffiliate', 'budgetoffline', 'budgetroyalty', 'budgetfinance', 'bundle_qty', 'misc_adjustments']
jsonified = jsonify_csv('PhocasSales_2015+.csv', dims, metrics)
print 'file opened', datetime.today()-start
stop = raw_input("waiting...")
【问题讨论】:
-
不要使用可变对象作为默认参数。见docs.python-guide.org/en/latest/writing/gotchas
-
嗨@cdarke 感谢您的回答,请您详细说明原因?我包含 struc = {} 的原因是我想打开 5 个单独的文件并将它们全部存储在同一对象的不同分支下。例如x = {file1:{},file2:{}}
-
每次调用都将使用同一个字典。你读过我给的链接吗?空字典
{}在编译时创建为函数的属性。如果您使用默认值调用该函数 28 次,您将不会获得 28 个不同的字典,它们将共享同一个字典。默认为None,然后在函数体中测试它的值。 -
@cdarke 抱歉,我没有看到您提供的链接,谢谢。我从默认参数更改它并在我调用函数时传递 {}
-
或默认为无!谢谢
标签: python csv dictionary memory