提取页面信息还有更强大更方便的工具—解析库。
内容简略,仅供参考
解析库之XPath
1,XPath简介,详见官网:XPath概览,推荐pip安装pip install lxml
2,常用规则:
| 表达式 | 描述 |
|---|---|
| nodename | 选取此节点的所有子节点 |
| / | 从当前节点选取直接子节点 |
| // | 从当前节点选取子孙节点 |
| . | 选取当前节点 |
| . . | 选取当前节点的父节点 |
| @ | 选取属性 |
3,运算符:
图片来源:https://www.w3school.com.cn/xpath/xpath_operators.asp
4,其他:
(1)text()方法获取文本
(2)节点轴
| 轴名称 | 描述 |
|---|---|
| attribute:: | 获取符合条件节点的属性 |
| ancestor:: | 获取符合条件的祖先节点 |
| child | 获取符合条件的直接子节点 |
| descendant | 获取符合条件的子孙节点 |
| following | 获取当前节点的子节点 |
| following-sibling | 获取当前节点之后同级节点 |
5,实例代码地址:Github-xylover