Web Scraping with Python读书笔记及思考

标签（空格分隔）： web scraping ,python

做数据抓取一定一定要明确:抓取\解析数据不是目的,目的是对数据的利用

一般的数据抓取结构如下:

概要

一个简单的web数据抓取的流程就像下面的图一样

Web Scraping with Python读书笔记及思考

HTML获取

分析工具

Firefox
Firebug

工具包

urllib
urllib2
Requests
phantomjs
selenium

反反爬虫策略

动态设置User-Agent
Cookie的使用
时间延迟/动态延迟设置
使用Google/Baidu Cache
使用IP代理池

调度策略

HTML解析(数据清晰)

工具包

lxml(XPath)
CSS选择器
BeautifulSoup
pyquery
正则表达式

数据存储

工具/格式

JSON结构化纯文本
XML结构化纯文本
MySQL关系型数据库
MongoDB非关系型数据库

相关文章：

2022-12-23
2022-01-12
2022-12-23
2022-12-23
2022-12-23
2022-12-23
2021-06-09
2021-09-20

猜你喜欢

2022-12-23
2021-11-25
2021-07-13
2021-07-27
2021-12-09
2022-01-08
2022-03-08

相关资源

下载 2023-03-18
下载 2023-02-17
下载 2023-02-16
下载 2022-12-05

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode