Day-3页面分析（Xpath）

一、爬取分析

爬虫是非常考验随机性的，运气性，以及思维跳跃的

在此次项目中，首先我们找到京东图书的页面，进入到里边

京东所有图书的API接口是：

http:/book.jd.com/booksort.html

（建议自己去京东网站自己找一下）

对于每一本书来说，它都会有大分类，小分类

思考：

1.分类的爬取

2.翻页 ---> nextwork（谷歌检查)

3.循环遍历的终点

4.如何判断当前小分类的图书抓取完毕

1.在提取nextwork的路由的时候，可以使用谷歌抓包的工具，点击next work来找到

2.如果程序员的是规范的程序员，一般来说都是用的page

嗯。。。。总的来说谷歌浏览器真香

翻页的网址，主要的是page这个参数，开循环抓取

二、xpath基本使用

1.分享xpth的安装包

https://pan.baidu.com/s/14hqPKdvW4A6ib7RpYY8Ttw

提取码：

751q

安装的方法：

解压，找到谷歌浏览器的扩展程序，拖进去就欧克

2.具体的xpth语法，在我之前的博客，可以自己学习一下

https://blog.csdn.net/linpengzt/article/details/104394943

记住一点：

如果你会xpth的语法，ok；

但是你如果不会，完全可以用复制

步骤，检查，右击，copy——xpth，就OK

然后自己修改一下就行（大部分需要修改，只需要在xpth里边删除一些东西就行）

3.对比其他解析工具

正则解析：万能解析，解析结果是字符串，谁都可以解析，缺点：晦涩难懂

xpth：解析路径，辅助工具很多，更适用于谷歌浏览器，原先用于解析xml，现在解析html

bs4：css选择器

三、图书数据解析

1.图书总入口

base_url = http:/book.jd.com/booksort.html

2.爬取每个小分类的链接

2.1 解析大分类的名字 -52各大分类（数据不一定准确）

category = '//da/a/text()' (xpth路径）

2.2解析小分类的名字和链接

small_category = '//em/a/text()'

注意，小分类的连接需要拼接

so，

small_link = http：+ ‘//em/a/@href’

list_book = ‘//*【@id = "plist"]/ul/li/div’

遍历解析书的具体信息

Day-3页面分析（Xpath）

到这里今天的项目基本就完成了，对于这个项目的进度基本上已经过去一多半了，

总结一下写一个爬虫的流程：

首先，环境准备，找到合适的环境，编译器，框架，以及数据库

明确自己需要什么样的数据，数据在数据库中存放的方式是什么（设计表）

其次，解析数据，在这个阶段明确自己需要什么数据，以及数据在网页的哪个字段下

然后应用框架，修改文件

1.修改爬取的url

2.修改settings文件，

Day-3页面分析（Xpath）

其实就是修改爬虫名，robot协议

3.修改piplines文件，将数据存放数据库

4.修改init文件，告诉爬虫爬取什么，在哪里

在这里其实一个爬虫已经做好了

以下可能会用到

浏览器代码池（防止反爬等问题）

可视化，前端页面

爬取速度限定，以及**反爬措施，验证码跳过等等问题

好了，今天的分享就到这里了，明天将完成最后的分享

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode