VIP创新课——网络爬虫

第0周：网络爬虫之前奏

1.导读

2.python开发工具的选择

文本工具类：idle：包含交互式和文件式，适合少量代码（入门级）、Sublime Text：专门为程序员开发使用的第三方专用编程工具、Notpad++

集成工具类：Wing、Visual Studio & PTVS、Eclips、Canopy（收费）、Anaconda & Spyder

科学计算、数据分析 Canopy（收费）、Anaconda\

第1周网络爬虫之规则

内容：介绍requests库、robots.txt协议、实例

单元一：requests入门

1.requests

（1）

get方法

（2）response

type(r) 检测r的类型

r.headers 获得请求页面的头部信息

r.request.url 返回发给百度的url是什么

备选编码方式可以解决乱码

（3）异常

（4）通用框架

2.http协议（为了更好的理解requests库）

（1）超文本传输协议

（2） http协议采用URL作为定位网络资源的标识

url格式

url是通过http存取资源的internet路径，一个url对应一个数据资源

（3）

3.具体学习requests

（1）访问控制参数了解

requests库的高级功能

可以向某一个连接提交一个文件

测试：任意找个url，测试一下成功爬取100次网页的时间。（避开那些对于连续爬取页面将采取屏蔽ip策略的网站）

import datetime
import requests

url = "http://www.baidu.com"
starttime = datetime.datetime.now()
for i in range(100):
r = requests.get(url)
endtime = datetime.datetime.now()
print(endtime - starttime)

单元二：网络爬虫的“盗亦有道”

1.网络爬虫引发的问题

（1）骚扰问题、法律风险、隐私问题

（2）网络爬虫的限制

2.Robots协议--网络爬虫排除标准

作用：告知网络爬虫哪些页面可以抓取，哪些不行。

使用：在网站根目录下的robots.txt文件

基本语法：

案例：

3.Robots协议的遵守方式

（1）网络爬虫应该能自动或人工识别robots.txt，再进行内容爬取。

（2）robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险。

单元三：五个实例

注意 len(r.text) 返回长度

第二周

相关文章：

猜你喜欢

2022-01-11
2021-07-25
2021-11-03
2021-12-20
2022-12-23
2021-05-25
2021-11-29

相关资源

下载 2021-06-05
下载 2022-12-21
下载 2022-12-26

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode