【发布时间】:2021-03-11 14:57:22
【问题描述】:
我正在尝试使用 python 在 N 行中处理来自 s3 的大文件的所有记录。我每次迭代都必须获取 N 行。每行都有一些 json 对象。
以下是我已经尝试过的一些事情:
1) 我尝试了这里提到的解决方案 Streaming in / chunking csv's from S3 to Python 但它在读取数据字节时破坏了我的 json 结构。
2)
obj = s3.get_object(Bucket=bucket_name, Key=fname)
data=obj['Body'].read().decode('utf-8').splitlines()
读取 100k 行的大文件需要更多时间。它将返回行列表,我们可以进一步迭代以从数据变量中获取行数。
【问题讨论】: