【发布时间】:2019-04-22 00:00:24
【问题描述】:
我有一个文本文件,其中的每一行我都清理为 json 格式。我可以读取每一行,清理它们,并将它们转换为熊猫数据框。
我的问题是我想将它们全部添加/组合到一个数据框中,但是有超过 20 万行。
我将每一行读为 'd' = '{"test1":"test2","data":{"key":{"isin":"test3"},"creationTimeStamp":1541491884194,"signal":0,"hPreds":[0,0,0,0],"bidPrice":6.413000,"preferredBidSize":1,"offerPrice":6.415000,"preferredOfferSize":1,"averageTradeSize":1029,"averageTradePrice":0.065252,"changedValues":true,"test4":10,"snapshot":false}}'
假设我能够将每一行转换为熊猫...有没有办法将每一行附加到熊猫数据框中,这样它会非常快。现在,超过 200k 行,追加需要几个小时...读取文件本身需要不到 5 分钟...
file ='fileName.txt'
with open(file) as f:
content = f.readlines()
content = [x.strip() for x in content]
data = pd.DataFrame()
count = 0
for line in content:
line = line.replace('{"string1','')
z = line.splitlines()
z[0] = z[0][:-1]
z = pd.read_json('[%s]' % ','.join(z))
data = data.append(z)
【问题讨论】:
标签: json python-3.x pandas