本文主要介绍下一直以来在爬虫中的那些坑

一 jsoup、html格式

上次虎扑出现的坑

请求里面

从头学习爬虫(三十三)实战篇----那些年的坑

我的xpath写div[@class=piclist3']/table/tr/td/a 居然拿不到

而我用div[@class=piclist3']/table/tbody/tr/td/a  居然拿到了

浏览器里面

从头学习爬虫(三十三)实战篇----那些年的坑

让我们觉得第三个怎么说的不对,然而我发现请求刚拿到的时候是没有这个tbody

那么这个是哪里来的。

我们代码实战下

从头学习爬虫(三十三)实战篇----那些年的坑

很明显经过html ,自动按html 标准格式化了多了很多标签,实战中也要考虑到这个(html 的类是webmagic那个)

因为我在python里面同样写的代码

div[@class=piclist3']/table/tr/td/a 是可以拿得到

这又是为什么

我后来看了下 我用的etree 以树的结构去解析而不加html标准需要的标签所以可以

二 请求参数

Cookie、token、jsessionid注意变化

还有些不要header不要加  如Content-Length

三 浏览器和请求

再三提示浏览器不等于请求

还是拿老例子网易云音乐

浏览器地址http://music.163.com/#/playlist?id=2203927235

请求地址   http://music.163.com/playlist?id=2203927235

从头学习爬虫(三十三)实战篇----那些年的坑


相关文章:

  • 2021-11-17
  • 2021-09-29
  • 2022-12-23
  • 2021-04-30
  • 2021-07-24
  • 2021-10-03
  • 2021-05-18
猜你喜欢
  • 2021-11-21
  • 2021-08-31
  • 2021-04-17
  • 2021-09-13
  • 2021-11-29
  • 2021-08-01
  • 2022-01-08
相关资源
相似解决方案