【发布时间】:2017-08-01 12:18:49
【问题描述】:
我目前正在尝试使用 scrapy 抓取 MSN 新闻,并且在使用 scrapy shell 时从浏览器获得正确响应时遇到了一些困难。
当我在浏览器中转到https://www.msn.com/en-us/news/world 时,我看到:
这是完美的,因为这就是页面应该看起来的样子,但是当我运行命令scrapy shell https://www.msn.com/en-us/news/world 然后view(response) 这就是我看到的。
我尝试禁用 javascript 以查看内容是否正在使用 ajax 加载,这就是它无法正常工作的原因,但所做的只是阻止加载缩略图。有人知道它为什么会这样吗?
【问题讨论】:
标签: web-scraping scrapy web-crawler scrapy-spider