【发布时间】:2020-11-15 22:24:45
【问题描述】:
我想抓取https://www.sephora.com/product/double-wear-stay-in-place-makeup-P378284?icid2=products%20grid:p378284 的评论 但是我找到的 xpath 没有返回任何值:
response.xpath('//*[@id="ratings-reviews"]/div[5]/div[1]/div[2]/div[1]/div[4]/text()').extract()
感谢任何帮助。
【问题讨论】:
-
我在您提供的网站 URL 上没有看到任何评论。在 id="ratings-reviews" 的 HTML 中也看不到任何内容。你确定你有正确的网址吗?
-
当我在 Chrome 开发人员工具中搜索时,XPath 匹配并找到内容。 cmets 很可能是在加载该页面的原始 HTML 之后通过使用 JavaScript 的渐进增强添加到文档中的,并且可能不适用于不评估 JavaScript 的抓取工具。
-
如何抓取 JavaScript 部分?我必须使用硒吗?
标签: python xpath scrapy screen-scraping