Python之爬虫学习记录簿（4）

提取页面信息还有更强大更方便的工具—解析库。
内容简略，仅供参考

解析库之XPath

1，XPath简介，详见官网：XPath概览，推荐pip安装pip install lxml
2，常用规则：

表达式	描述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
. .	选取当前节点的父节点
@	选取属性

3，运算符：
Python之爬虫学习记录簿（4）

图片来源：https://www.w3school.com.cn/xpath/xpath_operators.asp
4，其他：
（1）text()方法获取文本
（2）节点轴

轴名称	描述
attribute::	获取符合条件节点的属性
ancestor::	获取符合条件的祖先节点
child	获取符合条件的直接子节点
descendant	获取符合条件的子孙节点
following	获取当前节点的子节点
following-sibling	获取当前节点之后同级节点

5，实例代码地址：Github-xylover

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode