【发布时间】:2019-03-04 02:26:20
【问题描述】:
我正在尝试从以下 URL 抓取数据:
我一直在使用scrapy shell 命令,所以我可以调试从抓取网站后得到的响应。
当我在终端中使用response.css('#divSideBar div h3').get(default='') 时,我得到一个空响应。我最终使用以下选择器提升了一个级别...response.css('#divSideBar').get(default=''),我得到了一堆空白字符\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t
我可以使用 Chrome 中的开发人员工具很好地选择元素。我也检查了 Chrome 中的网络选项卡,内容来自我正在抓取的 URL:
有没有办法使用#divSideBar id 访问元素的内容?
【问题讨论】:
标签: python-2.7 web-scraping scrapy