检查scrapy响应中的源代码答案

【问题标题】：Checking source code in a scrapy response检查scrapy响应中的源代码
【发布时间】：2019-08-13 22:56:21
【问题描述】：

我制作了一个相当大的蜘蛛，它基本上从亚马逊产品页面中提取数据。

问题是有时我提取时没有数据返回。在那之后，我检查了已处理的 URL，并使用 chrome 工具跟随 xpath，数据实际上就在那里。

我知道我和 Chrome 工具看到的和蜘蛛处理的不一样，有没有办法真正看到蜘蛛试图从中提取的源代码？我在 chrome 工具的帮助下制作的 XPath 是否值得信赖？

【问题讨论】：

【解决方案1】：

您可以从 Scrapy 中保存“坏”response 并对其进行调查：

if not response.xpath('//YOUR/XPATH/THAT/WORKS/FOR/NORMAL/PAGES'):
    with open("Error.htm", "wb") as f:
        f.write(response.body)

【讨论】：

【解决方案2】：

使用（Chrome 中的 Ctrl-U）检查视图源。 Chrome 工具并不总是与 html 源代码保持一致。可能是由于页面上的 JavaScript。

【讨论】：