来自(慕课网 Python开发简单爬虫 https://www.imooc.com/video/10675) 个人笔记

1、麻烦

登录网页、javascript加载的


2、爬虫简介

爬虫:一段自动抓取互联网信息的程序。URL到URL,从界面提取数据。


3、简单爬虫架构

(URL管理器、网页下载器urllib2(python自带库)、网页解析器BeautifulSoup)

爬虫架构:

爬虫调度端(URL管理器--》网页下载器--》网页解析器)--》价值数据

运行流程:

Python 爬虫 入门 轻量级Python 爬虫 入门 轻量级Python 爬虫 入门 轻量级

Python 爬虫 入门 轻量级Python 爬虫 入门 轻量级Python 爬虫 入门 轻量级Python 爬虫 入门 轻量级Python 爬虫 入门 轻量级



4、URL管理器

用于管理待抓取的URL集合和已抓取URL集合

(1)放置重复抓取、放置循环抓取

(2)过程: 

Python 爬虫 入门 轻量级Python 爬虫 入门 轻量级

(3)URL管理器实现方式

内存:python的set可以直接去除重复数据

关系数据库:永久存储

缓存数据库(高性能,大型公司常用)

Python 爬虫 入门 轻量级


5、网页下载器urllib2(python自带库)

将互联网上URL对应的网页下载的本地的工具

类似于浏览器的形式。将html下载下来。

(1)python下载器

urllib2,python官方基础模块,支持需要登录,需要代理、需要用户数据数据,

requests:第三方工具,更强大。

(2)urllib2 三种下载网页方法

Python 爬虫 入门 轻量级

Python 爬虫 入门 轻量级

Python 爬虫 入门 轻量级

Python 爬虫 入门 轻量级

Python 爬虫 入门 轻量级Python 爬虫 入门 轻量级

6、网页解析器BeautifulSoup

(1)种类:正则表达式、html.parser模块、Beautiful Soup(第三方插件)、lxml(第三方插件)

(2)结构化解析-DOM,(Document Object Model)树,解析

Python 爬虫 入门 轻量级


(3)安装BeautifulSoup

官网:https://www.crummy.com/software/BeautifulSoup/bs4/doc/


(4)BeautifulSoup 语法

Python 爬虫 入门 轻量级

Python 爬虫 入门 轻量级

Python 爬虫 入门 轻量级

Python 爬虫 入门 轻量级

Python 爬虫 入门 轻量级




7、示例

爬虫步骤

Python 爬虫 入门 轻量级






相关文章: