Python爬虫学习实践记录(一:什么是网络爬虫？)

第一节：什么是网络爬虫？

1. 爬虫的实际例子

搜索引擎【百度、谷歌、360搜索等】

其实在你搜索关键字之前就有成千上百的爬虫从各地爬取内容进行存储，在你输入关键字后，百度服务器会把爬取的内容与你关键字相关的内容进行汇总呈现。
伯乐在线
惠惠购物助手

历史价格就是爬虫从很久前就开始爬取汇总获得的。
数据分析与研究【数据冰山-知乎专栏】

2. 什么是网络爬虫？

通俗来讲，爬虫就是一个模拟人类请求网站行为的程序。可以自动请求网页，将数据抓取下来，然后使用一定的规则提取有价值的数据。

3. 通用爬虫和聚焦爬虫

通用爬虫: 将互联网上的网页下载到本地，不管这个数据有没有价值，可以看成是这个网页内容的镜像备份。

聚焦爬虫: 是面向特定需求的网络爬虫程序。与通用爬虫相比会对内容进行筛选，尽量只爬取有用的数据。

4.为什么用Python写爬虫程序？

Pyhton语法优美，代码简洁，开发效率高，支持的模块多，相关的HTTP请求模块和HTML模块非常丰富。Scrapy框架让我们开发爬虫变得异常简单。

5.准备工具

Python3.6开发环境
Pycharm 2017 profession版
虚拟环境

声明:本系列是网络课程自学笔记，无意侵权，未经授权禁止转载~

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode