快收藏! 30 分钟包你学会 AWK

本文大部分内容翻译自我开始学习AWK时看到的一篇英文文章 AWK Tutorial ,觉得对AWK入门非常有帮助,所以对其进行了粗略的翻译,并对其中部分内容进行了删减或者补充,希望能为对AWK感兴趣的小伙伴提供一份快速入门的教程,帮助小伙伴们快速掌握AWK的基本使用方式,当然,我也是刚开始学习AWK,本文在翻译或者补充的过程中肯定会有很多疏漏或者错误,希望大家能够帮忙指正。


本文将会持续修正和更新,最新内容请参考我的 GITHUB 上的 程序猿成长计划 项目,欢迎 Star。


概述


AWK是一门解释型的编程语言。在文本处理领域它是非常强大的,它的名字来源于它的三位作者的姓氏:Alfred Aho, Peter Weinberger 和 Brian Kernighan。


GNU/Linux发布的AWK目前由自由软件基金会(FSF)进行开发和维护,通常也称它为 GNU AWK。


AWK的类型


下面是几个AWK的变体:


  • AWK – 原先来源于 AT & T 实验室的的AWK

  • NAWK – AT & T 实验室的AWK的升级版

  • GAWK – 这就是GNU AWK。所有的GNU/Linux发布版都自带GAWK,它与AWK和NAWK完全兼容


AWK的典型用途


使用AWK可以做很多任务,下面是其中一些


  • 文本处理

  • 输出格式化的文本报表

  • 执行算数运算

  • 执行字符串操作等等


工作流


要成为AWK编程专家,你需要先知道它的内部实现机制,AWK遵循了非常简单的工作流 – 读取,执行和重复,下图描述了AWK的工作流。


快收藏! 30 分钟包你学会 AWK


Read


AWK从输入流(文件,管道或者标准输入)中读取一行,然后存储到内存中。


Execute


所有的AWK命令都依次在输入上执行。默认情况下,AWK会对每一行执行命令,我们可以通过提供模式限制这种行为。


Repeat


处理过程不断重复,直到到达文件结尾。


程序结构


现在,让我们先学习一下AWK的程序结构。


BEGIN 语句块


BEGIN语句块的语法


BEGIN {awk-commands}


BEGIN语句块在程序开始的使用执行,它只执行一次,在这里可以初始化变量。BEGIN是AWK的关键字,因此它必须为大写,注意,这个语句块是可选的。


BODY 语句块


BODY语句块的语法


/pattern/ {awk-commands}


BODY语句块中的命令会对输入的每一行执行,我们也可以通过提供模式来控制这种行为。注意,BODY语句块没有关键字。


END 语句块


END语句块的语法


END {awk-commands}


END语句块在程序的最后执行,END是AWK的关键字,因此必须为大写,它也是可选的。


让我们创建一个包含序号,学生姓名,科目名称和得分的文件 marks.txt.


1)  Amit    Physics  80

2)  Rahul   Maths    90

3)  Shyam   Biology  87

4)  Kedar   English  85

5)  Hari    History  89


下面的例子中我们将会显示文件内容,并且添加每一列的标题


快收藏! 30 分钟包你学会 AWK


上述代码执行后,输出以下内容


快收藏! 30 分钟包你学会 AWK


在程序的开始,AWK在BEGIN语句中打印出标题。然后再BODY语句中,它会读取文件的每一行然后执行AWK的print命令将每一行的内容打印到标准输出。这个过程会一直重复直到文件的结尾。


基础语法


AWK的使用非常简单,我们可以直接在命令行中执行AWK的命令,也可以从包含AWK命令的文本文件中执行。


AWK命令行


我们可以使用单引号在命令行中指定AWK命令


快收藏! 30 分钟包你学会 AWK


AWK程序文件


我们可以使用脚本文件提供AWK命令


快收藏! 30 分钟包你学会 AWK


AWK标准选项


AWK支持下列命令行标准选项


-v 变量赋值选项


该选项将一个值赋予一个变量,它会在程序开始之前进行赋值,下面的例子描述了该选项的使用


快收藏! 30 分钟包你学会 AWK


--dump-variables[=file] 选项


该选项会输出排好序的全局变量列表和它们最终的值到文件中,默认的文件是 awkvars.out。


快收藏! 30 分钟包你学会 AWK


--help 选项


打印帮助信息.


快收藏! 30 分钟包你学会 AWK


--lint[=fatal] 选项


该选项允许检查程序的不兼容性或者模棱两可的代码,当提供参数 fatal的时候,它会对待Warning消息作为Error。


快收藏! 30 分钟包你学会 AWK

--posix 选项


该选项开启严格的POSIX兼容。


--profile[=file]选项


该选项会输出一份格式化之后的程序到文件中,默认文件是 awkprof.out。


快收藏! 30 分钟包你学会 AWK

--traditional 选项


该选项会禁止所有的gawk规范的扩展。


--version 选项


输出版本号


快收藏! 30 分钟包你学会 AWK


基本使用示例


本部分会讲述一些有用的AWK命令和它们的使用示例,所有的例子都是以下面的文本文件 marks.txt 为基础的。


快收藏! 30 分钟包你学会 AWK


在文件marks.txt中,第三列包含了科目名,第四列则是得分,上面的例子中,我们只打印出了这两列,$3 和 $4 代表了输入记录中的第三和第四个字段。


打印所有的行


默认情况下,AWK会打印出所有匹配模式的行


快收藏! 30 分钟包你学会 AWK


打印匹配模式的列


当模式匹配成功时,默认情况下AWK会打印该行,但是也可以让它只打印指定的字段。例如,下面的例子中,只会打印出匹配模式的第三和第四个字段。


快收藏! 30 分钟包你学会 AWK


任意顺序打印


快收藏! 30 分钟包你学会 AWK


打印超过18个字符的行


快收藏! 30 分钟包你学会 AWK


内建变量


AWK提供了很多内置的变量,它们在开发AWK脚本的过程中起着非常重要的角色。

标准AWK变量


ARGC 命令行参数个数


命令行中提供的参数个数


快收藏! 30 分钟包你学会 AWK


ENVIRON 环境变量


环境变量的关联数组


快收藏! 30 分钟包你学会 AWK

NF 字段数目


快收藏! 30 分钟包你学会 AWK


OFS 输出字段分隔符


输出字段分隔符,默认为空


快收藏! 30 分钟包你学会 AWK


RSTART


match函数匹配的第一次出现位置


快收藏! 30 分钟包你学会 AWK


$n


当前行中的第n个字段


快收藏! 30 分钟包你学会 AWK


GNU AWK的变量


ARGIND


当前被处理的ARGV的索引


快收藏! 30 分钟包你学会 AWK


BINMODE


在非POSIX系统上指定对所有的文件I/O采用二进制模式。


ERRORNO


一个代表了getline跳转失败或者是close调用失败的错误的字符串。


快收藏! 30 分钟包你学会 AWK


FIELDWIDTHS


设置了空格分隔的字段宽度变量列表的话,GAWK会将输入解析为固定宽度的字段,而不是使用FS进行分隔。


IGNORECASE


设置了这个变量的话,AWK会忽略大小写。


快收藏! 30 分钟包你学会 AWK


LINT


提供了对–lint选项的动态控制。


快收藏! 30 分钟包你学会 AWK


操作符


与其它编程语言一样,AWK也提供了大量的操作符。


算数操作符


算数操作符不多说,直接看例子,无非就是+-*/%


快收藏! 30 分钟包你学会 AWK


增减运算符


自增自减与C语言一致。


快收藏! 30 分钟包你学会 AWK


赋值操作符


快收藏! 30 分钟包你学会 AWK


关系操作符


快收藏! 30 分钟包你学会 AWK


逻辑操作符


快收藏! 30 分钟包你学会 AWK


三元操作符


快收藏! 30 分钟包你学会 AWK


一元操作符


快收藏! 30 分钟包你学会 AWK


指数操作符


快收藏! 30 分钟包你学会 AWK


字符串连接操作符


快收藏! 30 分钟包你学会 AWK


数组成员操作符


快收藏! 30 分钟包你学会 AWK


正则表达式操作符


正则表达式操作符使用 ~ 和 !~ 分别代表匹配和不匹配。


快收藏! 30 分钟包你学会 AWK


更多关于正则表达式请看后面的正则表达式部分


正则表达式


AWK在处理正则表达式方面是非常强大的,使用简单的正则表达式可以处理非常复杂的问题。


快收藏! 30 分钟包你学会 AWK
快收藏! 30 分钟包你学会 AWK


数组


AWK支持关联数组,也就是说,不仅可以使用数字索引的数组,还可以使用字符串作为索引,而且数字索引也不要求是连续的。数组不需要声明可以直接使用,语法如下:


快收藏! 30 分钟包你学会 AWK


在AWK中,只支持一维数组,但是可以通过一维数组模拟多维,例如我们有一个3×3的三维数组


快收藏! 30 分钟包你学会 AWK


流程控制


流程控制语句与大多数语言一样,基本格式如下


快收藏! 30 分钟包你学会 AWK


循环


循环操作与其他C系语言一样,主要包括forwhiledo...whilebreakcontinue 语句,当然,还有一个 exit语句用于退出脚本执行。


快收藏! 30 分钟包你学会 AWK


exit用于退出脚本,参数为退出的状态码,可以通过shell中的$?获取


函数


内建函数


AWK提供了很多方便的内建函数供编程人员使用。由于函数比较多,个人觉得单纯看每个函数的使用也没有什么实际意义,比较容易遗忘,因此,这里只简单的列出常用的一些函数,只需要对其有个印象即可,使用的时候再去 查手册 效果会更好一些吧。


数学函数


  • atan2(y, x)

  • cos(expr)

  • exp(expr)

  • int(expr)

  • log(expr)

  • rand

  • sin(expr)

  • sqrt(expr)

  • srand([expr])


字符串函数


  • asort(arr [, d [, how] ])

  • asorti(arr [, d [, how] ])

  • gsub(regex, sub, string)

  • index(str, sub)

  • length(str)

  • match(str, regex)

  • split(str, arr, regex)

  • sprintf(format, expr-list)

  • strtonum(str)

  • sub(regex, sub, string)

  • substr(str, start, l)

  • tolower(str)

  • toupper(str)


时间函数


  • systime

  • mktime(datespec)

  • strftime([format [, timestamp[, utc-flag]]])


字节操作函数


  • and

  • compl

  • lshift

  • rshift

  • or

  • xor


其它


快收藏! 30 分钟包你学会 AWK
快收藏! 30 分钟包你学会 AWK
快收藏! 30 分钟包你学会 AWK
快收藏! 30 分钟包你学会 AWK
快收藏! 30 分钟包你学会 AWK


用户自定义函数


函数是程序基本的组成部分,AWK允许我们自己创建自定义的函数。一个大型的程序可以被划分为多个函数,每个函数之间可以独立的开发和测试,提供可重用的代码。


下面是用户自定义函数的基本语法


快收藏! 30 分钟包你学会 AWK


输出重定向


重定向操作符


到目前为止,我们所有的程序都是直接显示数据到了标准输出流,其实,我们也可以将输出重定向到文件。重定向操作符跟在printprintf函数的后面,与shell中的用法基本一致。


快收藏! 30 分钟包你学会 AWK


管道


除了将输出重定向到文件之外,我们还可以将输出重定向到其它程序,与shell中一样,我们可以使用管道操作符|


快收藏! 30 分钟包你学会 AWK


第一次I/O操作使用了|&操作符,gawk会创建一个到运行其它程序的子进程的双向管道,print的输出被写入到了subprogram的标准输入,而这个subprogram的标准输出在gawk中使用getline函数进行读取。


注意:目前协同进程的标准错误输出将会和gawk的标准错误输出混杂在一起,无法单独获取标准错误输出。另外,I/O缓冲可能存在问题,gawk程序会自动的刷新所有输出到下游的协同进程的管道。但是,如果协同进程没有刷新其标准输出的话,gawk将可能会在使用getline函数从协同进程读取输出的时候挂起,这就可能引起死锁。


我们可以使用close函数关闭双向管道的to或者from一端,这两个字符串值告诉gawk发送数据到协同进程完成时或者从协同进程读取完毕时关闭管道。在使用系统命令sort的时候是这样做是非常必要的,因为它必须等所有输出都读取完毕时才能进行排序。


快收藏! 30 分钟包你学会 AWK


上例看起来有些复杂,我们逐行分析一下


  • 首先,第一行 cmd = “tr [a-z] [A-Z]” 是在AWK中要建立双向连接的命令

  • 第二行的print命令用于为tr命令提供输入,而 |& 用于指出要建立双向连接

  • 第三行用于在上面的语句close(cmd, “to”),在执行完成后关闭其to进程

  • 第四行 cmd |& getline out使用getline函数存储输出到变量out中

  • 最后一行使用close函数关闭命令


美化输出


到目前为止,我们已经使用过printprintf函数显示数据到标准输出,但是printf函数实际上要比我们之前使用的情况更加强大得多。该函数是从C语言中借鉴来的,在处理格式化的输出时非常有用。


快收藏! 30 分钟包你学会 AWK


格式化输出标识有 %c, %d%s 等,基本与C语言一致,这里就不多赘述了。


执行shell命令


在AWK中执行shell命令有两种方式


  • 使用system函数

  • 使用管道


使用system函数


system函数用于执行操作系统命令并且返回命令的退出码到awk。


快收藏! 30 分钟包你学会 AWK


使用管道


如果要执行的命令很多,可以将输出的命令直接用管道传递给“/bin/sh”执行


快收藏! 30 分钟包你学会 AWK


参考


  • AWK Tutorial

  • The GNU Awk User’s Guide


本文将会持续修正和更新,最新内容请参考我的 GITHUB 上的 程序猿成长计划 项目,欢迎 Star。


源:伯乐在线 - mylxsw


分享朋友圈 也是另一种赞赏

The more we share, The more we have

 

欢迎加入数据君高效数据分析社区


加我私人微信进入大数据干货群:tongyuannow 




快收藏! 30 分钟包你学会 AWK


目前100000+人已关注加入我们

快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK

快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK 快收藏! 30 分钟包你学会 AWK



快收藏! 30 分钟包你学会 AWK


相关文章: