【发布时间】:2014-10-15 06:48:50
【问题描述】:
我有一个功能齐全的 scrapy 脚本来从网站中提取数据。在设置过程中,目标站点根据我的 USER_AGENT 信息禁止了我。我随后添加了一个 RotateUserAgentMiddleware 来随机旋转 USER_AGENT。这很好用。
但是,现在当我尝试使用 scrapy shell 测试 xpath 和 css 请求时,我收到 403 错误。我确定这是因为 scrapy shell 的 USER_AGENT 默认为目标站点已列入黑名单的某个值。
问题:是否可以在scrapy shell 中使用与默认不同的USER_AGENT 获取URL?
fetch('http://www.test') [添加一些东西??更改 USER_AGENT]
谢谢
【问题讨论】:
-
不同的问题。我可以在 settings.py 中更改 USER_AGENT 没问题。我正在尝试更改scrapy shell下的设置:doc.scrapy.org/en/latest/topics/shell.html