【问题标题】:Checking source code in a scrapy response检查scrapy响应中的源代码
【发布时间】:2019-08-13 22:56:21
【问题描述】:
我制作了一个相当大的蜘蛛,它基本上从亚马逊产品页面中提取数据。
问题是有时我提取时没有数据返回。在那之后,我检查了已处理的 URL,并使用 chrome 工具跟随 xpath,数据实际上就在那里。
我知道我和 Chrome 工具看到的和蜘蛛处理的不一样,有没有办法真正看到蜘蛛试图从中提取的源代码?我在 chrome 工具的帮助下制作的 XPath 是否值得信赖?
【问题讨论】:
标签:
python-3.x
web-scraping
scrapy
【解决方案1】:
您可以从 Scrapy 中保存“坏”response 并对其进行调查:
if not response.xpath('//YOUR/XPATH/THAT/WORKS/FOR/NORMAL/PAGES'):
with open("Error.htm", "wb") as f:
f.write(response.body)
【解决方案2】:
使用(Chrome 中的 Ctrl-U)检查视图源。 Chrome 工具并不总是与 html 源代码保持一致。可能是由于页面上的 JavaScript。