本文框架

  • 选取节点
  • 什么是谓语
  • 选取未知节点
  • XPath运算符
  • 爬虫的主要流程

选取节点

表达式 描述
nodename 选取此节点的所有子节点
/ 从根节点选取
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
. 选取当前节点
选取当前节点的父节点
@ 选取属性

// :从当前整个html文档中进行选取
*:表示全选


什么是谓语
谓语用来查找某个特定的节点或者包含某个指定的值得节点,被嵌入在方括号中。
在下面的表格中,列出来带有谓语的一些路径的表达式,以及表达式的结果:
爬虫 XPath及相关的概念


选取未知节点
XPath通配符可用来选取未知的XML元素

通配符 描述
* 匹配任何元素节点
@* 匹配任何属性节点
node() 匹配任何类型的节点

XPath运算符
爬虫 XPath及相关的概念


爬虫的主要流程

  1. 利用requests进行页面的响应
  2. 利用框架进行网页的爬取

相关文章: