【问题标题】:Checking source code in a scrapy response检查scrapy响应中的源代码
【发布时间】:2019-08-13 22:56:21
【问题描述】:

我制作了一个相当大的蜘蛛,它基本上从亚马逊产品页面中提取数据。

问题是有时我提取时没有数据返回。在那之后,我检查了已处理的 URL,并使用 chrome 工具跟随 xpath,数据实际上就在那里。

我知道我和 Chrome 工具看到的和蜘蛛处理的不一样,有没有办法真正看到蜘蛛试图从中提取的源代码?我在 chrome 工具的帮助下制作的 XPath 是否值得信赖?

【问题讨论】:

    标签: python-3.x web-scraping scrapy


    【解决方案1】:

    您可以从 Scrapy 中保存“坏”response 并对其进行调查:

    if not response.xpath('//YOUR/XPATH/THAT/WORKS/FOR/NORMAL/PAGES'):
        with open("Error.htm", "wb") as f:
            f.write(response.body)
    

    【讨论】:

      【解决方案2】:

      使用(Chrome 中的 Ctrl-U)检查视图源。 Chrome 工具并不总是与 html 源代码保持一致。可能是由于页面上的 JavaScript。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-04-26
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多