本文框架
- 选取节点
- 什么是谓语
- 选取未知节点
- XPath运算符
- 爬虫的主要流程
选取节点
| 表达式 | 描述 |
|---|---|
| nodename | 选取此节点的所有子节点 |
| / | 从根节点选取 |
| // | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置 |
| . | 选取当前节点 |
| … | 选取当前节点的父节点 |
| @ | 选取属性 |
// :从当前整个html文档中进行选取
*:表示全选
什么是谓语
谓语用来查找某个特定的节点或者包含某个指定的值得节点,被嵌入在方括号中。
在下面的表格中,列出来带有谓语的一些路径的表达式,以及表达式的结果:
选取未知节点
XPath通配符可用来选取未知的XML元素
| 通配符 | 描述 |
|---|---|
| * | 匹配任何元素节点 |
| @* | 匹配任何属性节点 |
| node() | 匹配任何类型的节点 |
XPath运算符
爬虫的主要流程
- 利用requests进行页面的响应
- 利用框架进行网页的爬取