【发布时间】:2017-01-23 03:24:25
【问题描述】:
我正在抓取一个产品网站,其中列出了数 10000 个项目。当我使用 Scrapy 时,我意识到它必须打 POST 调用 50,000 多次,这将导致阻塞。如果我在这里使用 PhantomJs Webdriver 来自动化网页操作,会有帮助吗?我的意思是像 Selenium-PhantomJs 这样的 Webkit 和像 Scrapy 这样的 BOTS 获取数据之间有什么区别吗?使用 Selenium 可以防止被阻塞吗?请有任何建议..
【问题讨论】:
-
你说的是 IO 阻塞还是网站禁止你?
-
这是关于网站的,有机会被阻止以获得更多点击。
-
慢慢来怎么样?
标签: selenium-webdriver web-scraping scrapy phantomjs python-requests