什么是爬虫?
1 爬虫简介
1.1 什么是爬虫?
- 简单一句话就是代替人去模拟浏览器进行网页操作
1.2 为什么需要爬虫?
- 为其他程序提供数据源 如搜索引擎(百度、Google等)、数据分析、大数据等 等
1.3 企业获取数据的方式?
- 公司原有的数据
- 第三方平台购买的数据 (百度指数、数据堂)
- 爬虫爬取的数据
1.4 Python 做爬虫的优势
- PHP : 对多线程、异步支持不太好
- Java : 代码量大,代码笨重
- C/C++ : 代码量大,难以编写
- Python : 支持模块多、代码简介、开发效率高 (scrapy框架)
1.5 爬虫的分类
- 通用网络爬虫:例如 baidu google yahu
- 聚焦网络爬虫: 根据既定的目标有选择的抓取某些特定主题内容
- 增量式网络爬虫: 指对下载网页采取增量式的更新和只爬取新产生的或者已经发生变化的网页爬虫
- 深层网络爬虫: 指那些一部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的web页面:例如用户登录注册才能访问的页面
2 爬虫的机制?
简单来讲就是计算机与计算机之间的交互方式
2.1 计算机与计算机之间的交互
- 寻找IP地址
- 找到指定的应用程序的端口
2.2 计算机之间的交互语言
- 我们统称为通讯协议
- 国际组织定义了通用的通信协议是TCP/IP协议
- 所谓协议就是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则
- HTTP又叫做超文本传输协议(是一种通信协议) HTTP它的端口是 80
2.3 网络模型介绍
- 数据在显示以及传输的过程中必须经过多层包装,不然无法成为有用的数据,于是在计算机交互的过程中就必然存在包装–解包–包装的过程:
- 后期更新了新的参考模型 TCP/IP参考模型:
2.3 HTTPS是什么呢?
- https=http+ssl,顾名思义,https是在http的基础上加上了SSL保护壳,信息的加密过程就是在SSL中完成的
- https,是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层,HTTPS的安全基础是SSL
2.2 SSL怎么理解?
- SSL也是一个协议主要用于web的安全传输协议