如何使用 awk 以块的形式处理和保存数据？答案

【问题标题】：How to process and save data in chunks using awk?如何使用 awk 以块的形式处理和保存数据？
【发布时间】：2021-01-06 03:18:03
【问题描述】：

假设我正在打开一个大型（数 GB）文件，我无法一次读取整个文件。

如果是 csv 文件，我们会使用：

for chunk in pd.read_csv('path/filename', chunksize=10**7):
    # save chunk to disk

或者我们可以对 pandas 做类似的事情：

import pandas as pd
with open(fn) as file:
    for line in file:
        # save line to disk, e.g. df=pd.concat([df, line_data]), then save the df

如何使用 awk 脚本“分块”数据？ awk 会将文本解析/处理为您想要的格式，但我不知道如何使用 awk 进行“分块”。可以编写一个脚本script1.awk 然后处理您的数据，但这会同时处理整个文件。

【问题讨论】：

【解决方案1】：

awk 按设计一次读取一条记录(chunk)。默认情况下，记录是数据行，但您可以使用RS （记录分隔符） 变量指定记录。在读取下一条之前，每个代码块都会有条件地在当前记录上执行：

$ awk '/pattern/{print "MATCHED", $0 > "output"}' file

上述脚本将从输入文件中一次读取一行，如果该行与pattern 匹配，它将在读取下一行之前将该行保存在文件输出中以MATCHED 开头。

【讨论】：

请看一下这个问题。 stackoverflow.com/questions/39886440/… 在 Python 中，我可以取一行 line 并将其保存为 HDF5 文件格式。我不能用 awk 做到这一点，可以吗？