【第一章】爬虫的介绍

1.爬虫的实际例子：

搜索引擎（百度、谷歌等）
伯乐在线
慧慧购物助手

2.什么是爬虫：爬虫是一个模拟人类请求网站的行为的程序，自动请求网页，获取数据，清洗数据，保存数据库。

3.通用爬虫和聚焦爬虫

通用爬虫：就是讲互联网上的网页下载到本地，形成一个互联网内容的镜像备份。
聚焦爬虫：是一种面向需求的网络爬虫，会对需求进行筛选，不是全部内容下载下来。

4.准备工具：

python 3.x
pycharm
虚拟环境

5.http协议和https协议：
HTTP：协议用的是80端口
HTTPs：协议用的是443端口，是HTTP协议的加密版本
【第一章】爬虫的介绍
6.URL详解：

7.常用的请求方法：

get
post

8.请求头常见的参数：
【第一章】爬虫的介绍
9.常见的状态码：

200：状态正常
301：永久重定向，例如www.jingdong.com重定向到www.jd.com
302：临时重定向
400：页面不存在
403：权限不够
500：服务器代码出现问题

10.抓包工具

Chrome浏览器

相关文章：

2021-07-20
2021-06-09
2021-07-06

猜你喜欢

2021-07-12
2021-08-21
2022-01-11
2021-11-24
2021-11-02
2021-11-11
2022-02-09

相关资源

下载 2023-01-14
下载 2021-06-05
下载 2021-06-05
下载 2021-06-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode