1. urllib 基础

1)爬取到内存中

Python爬虫学习笔记2

注:ignore可以规避解码细节问题防止报错。

2)爬取到本地
Python爬虫学习笔记2

3)浏览器伪装
利用浏览器标识来伪装成浏览器来突破反爬

Python爬虫学习笔记2

Python爬虫学习笔记2

4)用户代理池
用多个浏览器标识进行伪装
Python爬虫学习笔记2

若想设置每爬N次换一次代理:

例如每爬五次
Python爬虫学习笔记2

2.如何批量爬取(并翻页)
Python爬虫学习笔记2

相关文章: