【发布时间】:2015-11-10 08:24:46
【问题描述】:
我有以下网页Product page,我正在尝试从中获取 ASIN(在本例中为 ASIN=B014MHZ90M),但我不知道如何从该页面获取它。
我正在使用 Python 3.4、Scrapy 和以下代码:
hxs = Selector(response)
product_name = "".join(hxs.xpath('//span[contains(@class,"a-text-ellipsis")]/a/text()').extract())
product_model = hxs.xpath('//body//div[@id="buybox_feature_div"]//form[@method="post"]/input[@id="ASIN"/text()').extract()
这样我没有得到必填字段(ASIN 号)。
1. 我应该怎么做才能获得产品型号(ASIN)?
2.有没有办法调试这样的代码(我正在使用 PyCharm)。我无法使用调试器,只能运行它而没有看到“慢动作”中发生了什么。
提前感谢大家。
【问题讨论】:
标签: python python-3.x web-crawler scrapy amazon