python爬虫学习之微博指定信息抓取

爬虫学习的一点心得

任务：微博指定信息抓取

抓取：requests

解析：xpath，正则表达式

遇到的问题:

1.正则解析或Xpath解析的时候采用先抓大再抓小的方法会使抓取的信息更加准确且不会有遗漏

2.先抓大：获取到div（class=c）下的div标签中所有节点的内容text，利用tostring函数把每个个节点及其子节点形成的树转换成html，在抓小：然后正则替换掉所有标签，然后获取需要的所有信息。或者是需要的信息（微博内容有很多P标签内容需要拼接）------这个案例直接用正则解析可能更容易一些

相关文章：

2021-05-14
2021-07-16
2022-12-23
2021-11-08
2021-11-28
2021-11-28
2021-10-25
2022-12-23

猜你喜欢

2021-11-28
2021-12-14
2021-11-28
2021-11-19
2021-11-20
2021-11-28
2021-08-23

相关资源

下载 2021-06-06
下载 2023-01-28
下载 2022-12-05

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode