从头学习爬虫（三十三）实战篇----那些年的坑

本文主要介绍下一直以来在爬虫中的那些坑

上次虎扑出现的坑

请求里面

我的xpath写div[@class=piclist3']/table/tr/td/a 居然拿不到

而我用div[@class=piclist3']/table/tbody/tr/td/a 居然拿到了

浏览器里面

从头学习爬虫（三十三）实战篇----那些年的坑

让我们觉得第三个怎么说的不对，然而我发现请求刚拿到的时候是没有这个tbody

那么这个是哪里来的。

我们代码实战下

从头学习爬虫（三十三）实战篇----那些年的坑

很明显经过html ，自动按html 标准格式化了多了很多标签，实战中也要考虑到这个（html 的类是webmagic那个）。

因为我在python里面同样写的代码

div[@class=piclist3']/table/tr/td/a 是可以拿得到

这又是为什么

我后来看了下我用的etree 以树的结构去解析而不加html标准需要的标签所以可以

Cookie、token、jsessionid注意变化

还有些不要header不要加如Content-Length

再三提示浏览器不等于请求

还是拿老例子网易云音乐

浏览器地址http://music.163.com/#/playlist?id=2203927235

请求地址 http://music.163.com/playlist?id=2203927235

从头学习爬虫（三十三）实战篇----那些年的坑