如何使用scrapy shell从网站上抓取产品名称答案

【问题标题】：how to scrape product names from website using scrapy shell如何使用scrapy shell从网站上抓取产品名称
【发布时间】：2016-12-05 14:46:40
【问题描述】：

产品名称包含在 div 中的 class="product-card--name" 中。当我运行 :response.css('div.product-card--name::text').extract() ，它返回一个空列表。

请同时提供 css 和 xpath 命令。

【问题讨论】：

内容来自 AJAX 请求。因此，您将使用这些网址。（它是gap.com/resources/productSearch/v1/search?cid=5168，是 JSON 格式）

【解决方案1】：

正如 Gaby 所说，内容是动态加载的。您可以通过以下方式查看：

您将看到一个项目列表，您想要的是：

search?cid=5168&isFacetsEnabled=true&globalShippingCountryCode=&globalShippingCurrencyCode=&locale=en_US&pageId=0

如果你点击它，你可以看到带有标题的 http 请求和带有你想要的所有数据的响应。

要在scrapy上执行此操作有点复杂，您必须废弃此链接，但使用“POST”方法而不是默认方法（“GET”）。从一个scrapy spider执行此操作：

yield scrapy.Request(url, self.parse_data, method="POST", headers=headers, body=body)

URL 应该是您在 XHR 过滤器中找到的那个，使用的方法是“POST”，您应该复制我们之前找到的标题，并且在正文中包含您正在搜索的特定参数。从那里你会得到一个 JSON 响应，你可以将它保存到一个文件或做任何你想做的事情。

如果您需要更多详细信息，请告诉我。

【讨论】：