【发布时间】:2016-02-12 21:41:09
【问题描述】:
我需要为 80 GB csv 文件的每一行插入一个包含第一个字段的 MD5 哈希值的新字段。
对于小型项目,我可以通过将字段值传递给 excel 来完成此操作
=WEBSERVICE(CONCATENATE("https://helloacm.com/api/md5/?s="&ENCODEURL(A1)))
但是,对于 80 GB 的文件,这不是一个选项。
是否可以通过 AWK 提取这个海量 csv 中每一行的第一个字段,计算第一个字段内容的 md5,然后将该值插入到同一行中?
示例行:
原文:
"value001","value002","Value003","Value004","Value005","Value006","Value007"
修改了插入 md5ofvalue001 字段的示例行:
"value001","MD5ofValue001","value002","Value003","Value004","Value005","Value006","Value007"
【问题讨论】:
-
@shawnt00 是的,这是一个重复的问题,但是在该问题中选择的答案是错误的,所以如果将其关闭为该问题的副本将会很有用。
-
@shawnt100 - 此外,那里选择的答案使用 awk,对于具有大量行数的文件,这种类型的任务非常慢。