【发布时间】:2016-11-06 12:27:14
【问题描述】:
是否总是这样,在修改awk 中的特定字段后,输出字段分隔符上的信息会丢失?如果有多个字段分隔符并且我希望恢复它们会怎样?
例如,假设我有一个简单的文件example,其中包含:
a:e:i:o:u
如果我只是运行一个awk 脚本,它会考虑输入字段分隔符,它会打印我文件中的每一行,例如运行
awk -F: '{print $0}' example
我会看到原来的行。但是,如果我直接修改其中一个字段,例如与
awk -F: '{$2=$2"!"; print $0}' example
我没有取回原始行的修改版本,而是看到由默认空格分隔符分隔的字段,即:
a e! i o u
我可以通过指定 OFS 来取回原始版本的修改版本,例如:
awk -F: 'BEGIN {OFS=":"} {$2=$2"!"; print $0}' example
但是,在存在多个势场分隔符的情况下,但在多个分隔符的情况下,是否有一种简单的方法可以恢复原始分隔符?
例如,如果example 有: 和; 作为分隔符,我可以使用-F":|;" 来处理文件,但OFS 不足以恢复它们相对位置的原始分隔符。
更明确地说,如果我们切换到 example2 包含
a:e;i:o;u
我们可以使用
awk -F":|;" 'BEGIN {OFS=":"} {$2=$2"!"; print $0}' example2
(或-F"[:;]")获取
a:e!:i:o:u
但我们已经失去了 : 和 ; 之间的区别如果我们能够恢复,它会一直保持下去
a:e!;i:o;u
【问题讨论】:
-
这个问题是这里少有的好问题之一。为什么不简单地使用
-F'[:;]'添加一个无效的示例。这将使问题变得完美 - imo -
添加了显式示例
-
与 RT 等效的字段分隔符显然是 GNU 扩展。我想知道他们为什么没有它。
-
@MichaelVehrs 这并不难,只是不必要的时间和内存消耗。预计 awk 将非常高效。如果我们需要为每一行上的每个 FS 存储与 FS 匹配的字符串,它就会为几乎不需要的功能添加循环。当然,您可以添加标志来打开/关闭它,但是字段拆分代码必须检查标志,如果不参考标志,您将无法判断代码的作用。简单地提供一个函数,您可以调用它来做您想做的事情,如果/当您想要它。
-
此外,由于这是拆分字符串的有用功能,通常您需要在
split()函数中提供它,一旦您为split(<any string>,...)提供它,您就可以将其用于split($0,...),因此没有必要以其他方式专门为$0复制功能,尤其是考虑到很少需要该功能。
标签: awk