【发布时间】:2020-10-15 15:30:35
【问题描述】:
我正在尝试抓取 LinkedIn,该脚本运行了 3 个月,但昨天它崩溃了。
我使用 selenium webdriver,Firefox 和假用户代理。
def init_driver():
"""Initiates selenium webdriver.
:return: Firefox browser instance
"""
try:
# use random UserAgent to avoid captcha
fp = webdriver.FirefoxProfile()
fp.set_preference("general.useragent.override", UserAgent().random)
fp.update_preferences()
# initiate driver
options = FirefoxOptions()
#options.add_argument("--headless")
return webdriver.Firefox(firefox_options=options)
except Exception as e:
logging.error('Exception occurred initiating webdriver', exc_info=True)
然后只需打开一个页面 driver.get(url)
如果没有假代理和使用 chrome,也会发生同样的情况。
有没有人遇到过这样的事情?当我自己打开链接时,一切正常。
https://www.linkedin.com/authwall?trk=gf&trkInfo=AQFvPeNP8NQIxwAAAXLqc-uI5rnQe1ZIysPcZOgjZCzbrBHZj7q6gd68fPG9NzbX00Rlre_yC0tITChjMDEXSNnD8tZRaMXqcRG-z_3QUMlCvQPR4uVGBQYoSOl3ycoO2E6Jl9w=&originalReferer=&sessionRedirect=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2my_company%2F
该功能打开其他网址没有问题
【问题讨论】:
标签: python selenium web-scraping linkedin