【发布时间】:2018-07-29 06:37:11
【问题描述】:
我正在尝试使用 Python 中的 Scrapy 框架从 https://www.grailed.com/ 抓取数据,但是当我在
scrapy shell
并尝试学习如何提取数据,使用
response.css("my css path")
或
response.xpath("my xpath")
我总是得到空列表。然后,当我在 shell 中获取并查看https://www.grailed.com 的响应时,我得到一个几乎空白的页面,其中不包含我想要抓取的数据(项目、价格等)。在这种情况下,Scrapy 还能满足我的目的吗?如果没有,是否有任何替代方案?谢谢!
【问题讨论】:
-
我建议你使用
Regex来抓取数据?您希望得到一个全面的答案来解释它吗? -
我设法解决了我的问题,方法是使用 Selenium 打开加载所有 JS 的网页的无头实例,然后从那里抓取数据。但我也想了解如何使用正则表达式来抓取数据。
标签: python web-scraping scrapy