1.爬虫概念

1.1什么是爬虫?

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

1.2哪些语言可以实现爬虫?

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

1.3爬虫分类

通用爬虫,聚焦爬虫

通用爬虫

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

通用爬虫如何获取新网站?

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

检索排名

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

robots.txt

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

聚焦爬虫

根据特定需求,抓取指定的数据。

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

概要

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

2.HTTP协议

双方规定的传输形式,应用层的协议.

ftp(21)   http(80)\https(443)   ssh(22)   mysql(3306)   redis(6379)   momgo(27017)

 

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

2.1HTTP和HTTPS的区别

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

主要区别

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

公钥与私钥

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

2.2HTTP请求

请求行,若干消息头,实体内容。

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

请求行

get url地址附带,?之后,&连接,小于1k。

post 提交表单,数据量无限大。


消息头

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

X-Requested-With: ajax

 

2.3HTTP响应内容

状态行,若干消息头,实体内容

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

状态行

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

200 成功

300 重定向

400 禁止访问

500 服务器问题

请求消息头

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

 

3.Fiddler

抓包工具

3.1浏览器自带也有(Network)

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

3.2fiddler

1.配置

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

2.抓包

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

 

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具
Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

Python爬虫学习笔记一:爬虫,HTTP协议,抓包工具

相关文章: