【学习】06 爬虫使用代理地址爬取搜狗微信文章

参考：静觅丨崔庆才的个人博客

项目地址：copywang/spiders_collection

实现功能

根据登陆后的cookie制作header，请求搜索微信文章
url需要使用urlencode拼接
使用代理避免IP被封
使用pyquery解析得到需要的字段信息
爬取文章详情页并存储到MongoDB

步骤

制作cookie，拼接URL
获取每一页的html代码
从每一页的html代码解析得到具体文章的url
获取具体文章的url，解析得到需要的信息

收获

使用pyquery
使用代理IP
异常处理

相关文章：

2021-06-16
2021-06-11
2021-07-02
2021-12-13
2021-11-06
2021-12-25
2021-12-19
2022-01-03

猜你喜欢

2021-11-06
2021-07-06
2021-04-24
2021-11-06
2021-12-22

相关资源

下载 2021-06-30
下载 2022-12-09
下载 2023-01-20

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode