【问题标题】:Inserting a potentially missing line with perl使用 perl 插入可能丢失的行
【发布时间】:2020-10-28 04:30:11
【问题描述】:

我正在尝试修改 perl 过滤器以插入可能丢失的行。

我的输入可能是

一个

C

一个
C

A 和 B 是预先确定的和已知的。 C 可能因文件而异。

真正的数据更复杂——调用堆栈作为 回归测试。取决于使用的编译器(因此 优化)可能存在尾调用消除,可以消除 'B' 框架。过滤后的文件只是简单的比较。

在第二种情况下,我想插入“B”行。在第一种情况下,我不想插入重复的行。我认为这是一个负前瞻的工作,使用以下

s/A.(?!B)/A\nB/s;

但这似乎意味着“如果 A.(?!B) 的任何部分与输入文本匹配,则将其替换为 A\nB”,而我需要“如果所有 A.(?!B) 匹配”则替换.

无论我尝试什么,它要么总是替代,要么从不替代。

【问题讨论】:

  • 1) 文件可以有多大? 2)您的意思是以“B”开头的行总是在以“A”开头的行之后和以“C”开头的行之前? (如果它在那里。)
  • 1) 非常小,大部分大约 50 行和 1-2kbytes。 2) 是的,要么有 A-B-C,要么有 A-C。我会用更多信息更新这个问题。
  • 老实说。我需要一个快速修复,所以我用 awk 快速破解了一些东西。我会在假期后回到这个。

标签: regex perl regex-lookarounds


【解决方案1】:

在单行中进行准备测试

perl -0777 -wpe's/ ^A.*\n \K (?!B.*\n) /B-line\n/xgm' file

\K 使它丢弃之前的所有匹配项,因此我们不必在替换端捕获并复制它们。使用-0777 switch 将整个文件转换成一个字符串,在$_ 中可用。

为了匹配所有这样的A-B?-C 行组,我们需要/g modifier(匹配“全局”),并且对于锚^ 也匹配内部换行符,我们需要/m修饰符(“多行”)。

/x 修饰符使其忽略文字空格(以及换行符和 cmets),这允许将内容隔开以提高可读性。

另一方面,如果以A 开头的行后面必须跟以B 开头的行,或者如果B 行不存在,则必须跟以C 开头的行,那么它就更简单了,不需要前瞻

perl -0777 -wpe's/ ^A.*\n \K (^C.*\n) /B-line\n$1/xgm' file

这些都在我的(基本)测试中正常工作。

在任何一种情况下,文件的其余部分都按原样打印,因此如果需要,您可以使用-i 开关“就地”更改输入文件,并使用-i.bak 获得备份好吧。所以

perl -i.bak -0777 -wpe'...' file

或者您可以将输出(重定向)转储到同一个文件中以覆盖它,因为整个文件是第一次读取的,如果脚本用完了。


逐行读取文件当然要灵活得多。例如

use warnings;
use strict;
use feature 'say';

my $just_saw_A_line;

while (<>) { 
    if ($just_saw_A_line and not /^B/) { 
        say "B-line";
    }   

    $just_saw_A_line = /^A/;
    print
}

这也处理多个A-(B?)-C 线路组。它更容易根据变化进行调整。

该程序就像一个过滤器,从命令行中给出的文件中获取STDIN 或行,并将行打印到STDOUT。然后可以将输出重定向到文件,但不能重定向到输入文件本身。 (如果需要更改输入文件,则需要为此修改代码。)

【讨论】:

  • 一开始忘了说我只提前知道A和B,C可能会有所不同。我明天会试试这些。
  • @PaulFloyd 啊,好吧。 (这就是我在问题下询问它的原因。)如果变化是已知的(并且是合理的),仍然可以使用第二种形式,然后你将匹配这些变化(可能有一个交替)。更新并让我知道,我会更新。此外,我将添加一个“正常”解决方案,您可以通过该解决方案逐行处理文件。更灵活...
  • @PaulFloyd 添加了逐行示例
猜你喜欢
  • 1970-01-01
  • 2020-08-22
  • 1970-01-01
  • 1970-01-01
  • 2011-04-05
  • 2012-10-28
  • 1970-01-01
  • 1970-01-01
  • 2013-01-01
相关资源
最近更新 更多