python爬虫——绕开杂乱无章的代码和堵住请求的302异常（2）

　　淘宝那次抓包，居然发现不了要抓的url位置，三星中。。。

　　不过不怕，不就是没法快点分析出包嘛，下次用phantomJS硬杠，或者有时间慢慢分析也好。

　　今天挑战一个稍微好爬的网站：狗搬家（误）

　　打开后台代码一看，山口山

　　 python爬虫——绕开杂乱无章的代码和堵住请求的302异常（2）

　　一堆<p style="display:none;">直接影响分析数据。

　　有个运用无头浏览器的爬虫使用了图像分析法，不过老夫真心认为这玩意还是不要随便用比较好，就像一些简单的网站不要用phantomJS一样

　　稍微分析ip那里的代码就可以找到解的（避免查水表不发布源代码）去除html标签，连着里面的元素去除什么的，用regex还是比较简单的

　　结果想再爬这个网页时，出现了302重定向

　　这里，直接ban掉重定向没有多大用，关键是识别到状态再根据情况重新请求。

　　从stackoverflow一哥们那里搞来了这段代码：

self.log("(parse_page) response: status=%d, URL=%s" % (response.status, response.url))
        if response.status in (302,) and 'Location' in response.headers:
            self.log("(parse_page) Location header: %r" % response.headers['Location'])
            yield Request(response.headers['Location'],callback=self.parse,meta=self.meta)

View Code