淘宝那次抓包,居然发现不了要抓的url位置,三星中。。。

  不过不怕,不就是没法快点分析出包嘛,下次用phantomJS硬杠,或者有时间慢慢分析也好。

  今天挑战一个稍微好爬的网站:狗搬家(误)

  打开后台代码一看,山口山

  python爬虫——绕开杂乱无章的代码和堵住请求的302异常(2)

  一堆<p style="display:none;">直接影响分析数据。

  有个运用无头浏览器的爬虫使用了图像分析法,不过老夫真心认为这玩意还是不要随便用比较好,就像一些简单的网站不要用phantomJS一样

  稍微分析ip那里的代码就可以找到解的(避免查水表不发布源代码)去除html标签,连着里面的元素去除什么的,用regex还是比较简单的

  结果想再爬这个网页时,出现了302重定向

  这里,直接ban掉重定向没有多大用,关键是识别到状态再根据情况重新请求。

  从stackoverflow一哥们那里搞来了这段代码:

self.log("(parse_page) response: status=%d, URL=%s" % (response.status, response.url))
        if response.status in (302,) and 'Location' in response.headers:
            self.log("(parse_page) Location header: %r" % response.headers['Location'])
            yield Request(response.headers['Location'],callback=self.parse,meta=self.meta)
View Code

相关文章:

  • 2021-11-25
  • 2022-12-23
  • 2021-08-09
  • 2021-06-06
  • 2022-02-06
  • 2021-10-27
  • 2021-11-22
猜你喜欢
  • 2021-11-14
  • 2021-09-04
  • 2022-12-23
  • 2021-07-20
  • 2021-12-25
  • 2021-07-25
  • 2022-12-23
相关资源
相似解决方案