Python 爬虫入门轻量级

来自（慕课网 Python开发简单爬虫 https://www.imooc.com/video/10675）个人笔记

1、麻烦

登录网页、javascript加载的

2、爬虫简介

爬虫：一段自动抓取互联网信息的程序。URL到URL，从界面提取数据。

3、简单爬虫架构

（URL管理器、网页下载器urllib2（python自带库）、网页解析器BeautifulSoup）

爬虫架构：

爬虫调度端（URL管理器--》网页下载器--》网页解析器）--》价值数据

运行流程：

Python 爬虫入门轻量级

4、URL管理器

用于管理待抓取的URL集合和已抓取URL集合

（1）放置重复抓取、放置循环抓取

（2）过程：

Python 爬虫入门轻量级

（3）URL管理器实现方式

内存：python的set可以直接去除重复数据

关系数据库：永久存储

缓存数据库（高性能，大型公司常用）

Python 爬虫入门轻量级

5、网页下载器urllib2（python自带库）

将互联网上URL对应的网页下载的本地的工具

类似于浏览器的形式。将html下载下来。

（1）python下载器

urllib2，python官方基础模块，支持需要登录，需要代理、需要用户数据数据，

requests：第三方工具，更强大。

（2）urllib2 三种下载网页方法

Python 爬虫入门轻量级

6、网页解析器BeautifulSoup

（1）种类：正则表达式、html.parser模块、Beautiful Soup（第三方插件）、lxml（第三方插件）

（2）结构化解析-DOM，（Document Object Model）树，解析

Python 爬虫入门轻量级

（3）安装BeautifulSoup

官网：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

（4）BeautifulSoup 语法

Python 爬虫入门轻量级

7、示例

爬虫步骤

Python 爬虫入门轻量级