Linux-正则表达式筛选网页信息（实时空气质量）

半年前Linux课的实验内容

1、首先用wget获取网页信息并且使用more查看文件内容
Linux-正则表达式筛选网页信息（实时空气质量）

2、可以看到，文件内容大概是这种格式的
Linux-正则表达式筛选网页信息（实时空气质量）

3、首先，将<>以及<>内的内容去掉，使用到cat和流编辑命令sed
Linux-正则表达式筛选网页信息（实时空气质量）

4、查看目前文件的内容格式如下：
Linux-正则表达式筛选网页信息（实时空气质量）

5、要把日期和时间加到这些地名之前，注意到在“活动更新：”后面有日期和时间，分别是这一行的==$2和$3==中
Linux-正则表达式筛选网页信息（实时空气质量）

6、创建一个对文本进行加工的awk文件，命名为flow.awk，对其进行编辑：

Linux-正则表达式筛选网页信息（实时空气质量）

7、使用awk命令
Linux-正则表达式筛选网页信息（实时空气质量）

这样可以把日期和时间打印出来了
结果是这样的：
Linux-正则表达式筛选网页信息（实时空气质量）

因为awk命令自动对每行文本执行判断，所以是有很多行一样的

8、现在我们能得到日期和时间了，然后我们继续观察我们需要的数据行，行内的共同特点是都有一个字母“g”，修改awk文件，匹配这些行并输出对应结果：
Linux-正则表达式筛选网页信息（实时空气质量）

对应上面的内容，
可以知道$1-$4指代的是监测点和其后面的三个参数

9、上一步之后再次使用步骤7的命令就能看到结果如下：
Linux-正则表达式筛选网页信息（实时空气质量）

10、要把每行日期前面的内容替换成”2020-”

使用sed匹配的时候，用.*代替了中间的一连串字符（意为一个或多个任意字符）
结果如下：
Linux-正则表达式筛选网页信息（实时空气质量）

11、然后把每行第一个逗号改为空格，第二个逗号前面添加:00，同样使用最简单的sed命令

Linux-正则表达式筛选网页信息（实时空气质量）

12、根据作业要求，每行只要显示到地名后面的数字为止，将后面的东西删去：
Linux-正则表达式筛选网页信息（实时空气质量）

主要思路是：去匹配地名后面的逗号和数字，还有数字后面的不需要的东西，将这些东西分成两部分，留下第一部分。

13、把结果重定向到文件中并查看：
Linux-正则表达式筛选网页信息（实时空气质量）

成功！