【发布时间】:2020-04-21 23:00:30
【问题描述】:
我想抓取一个网站及其子页面,但耗时太长。如何优化请求或使用替代解决方案?
下面是我正在使用的代码。加载谷歌主页需要 10 秒。所以如果我给它 280 个链接,它显然是不可扩展的
from selenium import webdriver
import time
# prepare the option for the chrome driver
options = webdriver.ChromeOptions()
options.add_argument('headless')
# start chrome browser
browser = webdriver.Chrome("/usr/lib/chromium-browser/chromedriver" ,chrome_options=options)
start=time.time()
browser.get('http://www.google.com/xhtml')
print(time.time()-start)
browser.quit()
【问题讨论】:
-
你试过用scrapy吗?您能否提供您实际抓取的网址,问题可能与服务器有关。
-
tajinequiparle.com/dictionnaire-francais-arabe-marocain 这个网址,我会浏览所有字母,然后浏览所有单词
标签: python html selenium beautifulsoup web-crawler