python爬虫学习过程记录

1.开发轻量级爬虫

1.1爬虫简介

爬虫：一段自动抓取互联网信息的程序。
python爬虫学习过程记录
自动访问互联网并且提取数据。

价值：互联网数据为我所用。

1.2简单爬虫架构

python爬虫学习过程记录
运行流程：

1.3URL管理器

URL管理器：管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。
python爬虫学习过程记录
实现方式：

一般大公司都存在缓存数据库中。

1.4网页下载器

网页下载器：将互联网上URL对应的网页下载到本地的工具。
python爬虫学习过程记录
Python有哪几种网页下载器？

1.5 urllib2

urllib2下载网页方法1：最简洁方法
python3中把urllib2改为了urllib.request
python爬虫学习过程记录
对应到代码：

urllib2下载网页方法2：添加data、http header

urllib2下载网页方法3：添加特殊情景的处理器。

有些网页需要登录才能处理，需要添加Cookie的处理；
有些网页需要代理才能访问，使用ProxyHandler；
有些网页使用Https加密访问，使用HTTPSHandler；
有些网页url是相互自动跳转的关系，使用HTTPRedirectHandler。
对应到代码：
python爬虫学习过程记录

1.6网页解析器

网页解析器：从网页中提取出有价值的数据的工具。
python爬虫学习过程记录
python有哪几种网页解析器？

结构化解析-DOM（Document Object Model）树

1.7 Beautiful Soup

python第三方库，用于从HTML或XML中提取数据
安装并测试beautifulsoup4
安装：pip install beautifulsoup4
测试：import bs4
语法：
python爬虫学习过程记录
例如：

创建BeautifulSoup对象

搜索节点(find_all, find)

访问节点信息

1.8 实例爬虫

python爬虫学习过程记录
目标：百度百科python词条相关词条网页-标题和简介。
入口页：https://baike.baidu.com/item/Python/407313
词条页面URL:/item/opencv 这不是一个完整的URL，需要补全。
数据格式：
标题：

Python

简洁：
<div class=’‘para’’>

相关文章：

2021-11-19
2022-02-21
2022-02-09
2022-12-23
2022-12-23
2021-09-27
2021-10-12
2021-11-30

猜你喜欢

2021-12-24
2021-05-06
2021-12-18
2021-12-25
2021-12-28
2021-06-08
2021-06-11

相关资源

下载 2022-12-29
下载 2021-06-06
下载 2021-06-05

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode