1.开发轻量级爬虫

1.1爬虫简介

爬虫:一段自动抓取互联网信息的程序。
python爬虫学习过程记录
自动访问互联网并且提取数据。

价值:互联网数据为我所用。

1.2简单爬虫架构

python爬虫学习过程记录
运行流程:
python爬虫学习过程记录

1.3URL管理器

URL管理器:管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。
python爬虫学习过程记录
实现方式:
python爬虫学习过程记录
一般大公司都存在缓存数据库中。

1.4网页下载器

网页下载器:将互联网上URL对应的网页下载到本地的工具。
python爬虫学习过程记录
Python有哪几种网页下载器?
python爬虫学习过程记录

1.5 urllib2

urllib2下载网页方法1:最简洁方法
python3中把urllib2改为了urllib.request
python爬虫学习过程记录
对应到代码:
python爬虫学习过程记录
urllib2下载网页方法2:添加data、http header
python爬虫学习过程记录
python爬虫学习过程记录
urllib2下载网页方法3:添加特殊情景的处理器。
python爬虫学习过程记录
有些网页需要登录才能处理,需要添加Cookie的处理;
有些网页需要代理才能访问,使用ProxyHandler;
有些网页使用Https加密访问,使用HTTPSHandler;
有些网页url是相互自动跳转的关系,使用HTTPRedirectHandler。
对应到代码:
python爬虫学习过程记录

1.6网页解析器

网页解析器:从网页中提取出有价值的数据的工具。
python爬虫学习过程记录
python有哪几种网页解析器?
python爬虫学习过程记录
结构化解析-DOM(Document Object Model)树
python爬虫学习过程记录

1.7 Beautiful Soup

python第三方库,用于从HTML或XML中提取数据
安装并测试beautifulsoup4
安装:pip install beautifulsoup4
测试:import bs4
语法:
python爬虫学习过程记录
例如:
python爬虫学习过程记录
创建BeautifulSoup对象
python爬虫学习过程记录
搜索节点(find_all, find)
python爬虫学习过程记录
访问节点信息
python爬虫学习过程记录

1.8 实例爬虫

python爬虫学习过程记录
目标:百度百科python词条相关词条网页-标题和简介。
入口页:https://baike.baidu.com/item/Python/407313
词条页面URL:/item/opencv 这不是一个完整的URL,需要补全。
数据格式:
标题:

Python


简洁:
<div class=’‘para’’>

相关文章: