【问题标题】:Turn paragraph entries into columns with posix awk or sed?使用posix awk或sed将段落条目转换为列?
【发布时间】:2020-12-09 06:44:22
【问题描述】:

我正在解析一个如下所示的文件:

Al Bronson
Bud Collins
Yousef Zane

2020-03-04
2020-04-04
2018-05-14

Actor 8
Stage 3
Producer 2

我希望它们格式化成这样:

Al Bronson,2020-03-04,Actor 8
Bud Collins,2020-04-04,Stage 3
Yousef Zane,2018-05-14,Producer 2

我试过了

awk 'BEGIN {
    FS = "\n"
    RS = "" 
    OFS = "," 
    ORS = "\n" 
  }
  {
    for (i=1; i<=NF; i++) {
      arr[$i] = $i
    }
  }
  END {
    for (i=1; i<=NF; i++)
      print arr[$i]
  }' \
"$FILE"

但它只是输出

Actor 8
Stage 3
Producer 2

奇怪的是:

awk 'BEGIN {
    FS = "\n"
    RS = "" 
    OFS = "," 
    ORS = "\n" 
  }
  {
    print $1
  }' \
"$FILE"

输出接近我想要的东西:

Al Bronson
2020-03-04
Actor 8

我不知所措 b/c 这似乎很容易,而且——我想——我很接近了!

有人能解释一下发生了什么吗?

【问题讨论】:

    标签: arrays awk sed scripting posix


    【解决方案1】:

    i 是一个数字,而 $i 是第 i 个字段的内容,所以 arr[i] 而不是 arr[$i] 是您想要的语法。此外,您必须附加新字段,而不是分配和覆盖现有内容。所以你的脚本应该是:

    BEGIN {
        FS = "\n"
        RS = "" 
        OFS = "," 
        ORS = "\n" 
    }
    {
        for (i=1; i<=NF; i++) {
            arr[i] = (arr[i]? arr[i] OFS $i: $i)
        }
    }
    END {
        for (i=1; i<=NF; i++)
            print arr[i]
    }
    

    【讨论】:

    • 谢谢!完美缩放并解释了我的混乱:)
    【解决方案2】:

    我假设输入由三个记录组成,每个记录具有相同数量的字段(行)。下面的脚本读取这三个记录并在换行符上拆分每个记录。

    awk -F'\n' -v RS= -v OFS=, '
        NR == 1 { n = split($0, names) }
        NR == 2 { split($0, dates) }
        NR == 3 { split($0, info) }
        END     { for (i = 1; i <= n; ++i) print names[i], dates[i], info[i] }
    ' file
    

    【讨论】:

      猜你喜欢
      • 2015-12-29
      • 1970-01-01
      • 2015-06-21
      • 2021-10-12
      • 2016-12-23
      • 1970-01-01
      • 2023-04-02
      • 1970-01-01
      • 2015-02-04
      相关资源
      最近更新 更多