半年前Linux课的实验内容

1、首先用wget获取网页信息并且使用more查看文件内容
Linux-正则表达式 筛选网页信息(实时空气质量)

2、可以看到,文件内容大概是这种格式的
Linux-正则表达式 筛选网页信息(实时空气质量)

3、首先,将<>以及<>内的内容去掉,使用到cat和流编辑命令sed
Linux-正则表达式 筛选网页信息(实时空气质量)

4、查看目前文件的内容格式如下:
Linux-正则表达式 筛选网页信息(实时空气质量)

5、要把日期和时间加到这些地名之前,注意到在“活动更新:”后面有日期和时间,分别是这一行的==$2和$3==中
Linux-正则表达式 筛选网页信息(实时空气质量)

6、创建一个对文本进行加工的awk文件,命名为flow.awk,对其进行编辑:

Linux-正则表达式 筛选网页信息(实时空气质量)

7、使用awk命令
Linux-正则表达式 筛选网页信息(实时空气质量)

这样可以把日期和时间打印出来了
结果是这样的:
Linux-正则表达式 筛选网页信息(实时空气质量)

因为awk命令自动对每行文本执行判断,所以是有很多行一样的

8、现在我们能得到日期和时间了,然后我们继续观察我们需要的数据行,行内的共同特点是都有一个字母“g”,修改awk文件,匹配这些行并输出对应结果:
Linux-正则表达式 筛选网页信息(实时空气质量)

对应上面的内容,
可以知道$1-$4指代的是监测点和其后面的三个参数

9、上一步之后再次使用步骤7的命令就能看到结果如下:
Linux-正则表达式 筛选网页信息(实时空气质量)

10、要把每行日期前面的内容替换成”2020-”

使用sed匹配的时候,用.*代替了中间的一连串字符(意为一个或多个任意字符)
结果如下:
Linux-正则表达式 筛选网页信息(实时空气质量)

11、然后把每行第一个逗号改为空格,第二个逗号前面添加:00,同样使用最简单的sed命令

Linux-正则表达式 筛选网页信息(实时空气质量)

12、根据作业要求,每行只要显示到地名后面的数字为止,将后面的东西删去:
Linux-正则表达式 筛选网页信息(实时空气质量)

主要思路是:去匹配地名后面的逗号和数字,还有数字后面的不需要的东西,将这些东西分成两部分,留下第一部分。

13、把结果重定向到文件中并查看:
Linux-正则表达式 筛选网页信息(实时空气质量)

成功!

相关文章:

  • 2022-12-23
  • 2021-12-12
  • 2021-12-12
  • 2021-12-12
  • 2021-12-12
猜你喜欢
  • 2022-12-23
  • 2021-07-04
  • 2022-12-23
  • 2022-01-27
  • 2021-10-18
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案