为什么通过抓取 LinkedIn 它无法加载请求的 url？ Python答案

【问题标题】：Why by scraping LinkedIn it cannot load the requested url? Python为什么通过抓取 LinkedIn 它无法加载请求的 url？ Python
【发布时间】：2020-10-15 15:30:35
【问题描述】：

我正在尝试抓取 LinkedIn，该脚本运行了 3 个月，但昨天它崩溃了。

我使用 selenium webdriver，Firefox 和假用户代理。

网址是https://www.linkedin.com/company/my_company/

def init_driver():
    """Initiates selenium webdriver.
    :return: Firefox browser instance
    """
    try:
        #  use random UserAgent to avoid captcha
        fp = webdriver.FirefoxProfile()
        fp.set_preference("general.useragent.override", UserAgent().random)
        fp.update_preferences()
        # initiate driver
        options = FirefoxOptions()
        #options.add_argument("--headless")
        return webdriver.Firefox(firefox_options=options)
    except Exception as e:
        logging.error('Exception occurred initiating webdriver', exc_info=True)

然后只需打开一个页面 driver.get(url)

此时它打开但无法加载

如果没有假代理和使用 chrome，也会发生同样的情况。

有没有人遇到过这样的事情？当我自己打开链接时，一切正常。

https://www.linkedin.com/authwall?trk=gf&trkInfo=AQFvPeNP8NQIxwAAAXLqc-uI5rnQe1ZIysPcZOgjZCzbrBHZj7q6gd68fPG9NzbX00Rlre_yC0tITChjMDEXSNnD8tZRaMXqcRG-z_3QUMlCvQPR4uVGBQYoSOl3ycoO2E6Jl9w=&originalReferer=&sessionRedirect=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2my_company%2F

该功能打开其他网址没有问题

【问题讨论】：

标签： python selenium web-scraping linkedin

【解决方案1】：

这就是你应该如何修改你的代码。

我修改了你的代码，你的代码被正确执行了。

from selenium import webdriver
from fake_useragent import UserAgent
import logging

def init_driver():
    """Initiates selenium webdriver.
    :return: Firefox browser instance
    """

    path = r"your firefox driver path"

    try:
        #  use random UserAgent to avoid captcha
        fp = webdriver.FirefoxProfile()
        fp.set_preference("general.useragent.override", UserAgent().random)
        fp.update_preferences()
        # initiate driver
        options = webdriver.FirefoxOptions()
        # options.add_argument("--headless")
        return webdriver.Firefox(firefox_options=options, executable_path=path)
    except Exception:
        logging.error('Exception occurred initiating webdriver', exc_info=True)




url = "your url"

driver = init_driver()


driver.get(url)

【讨论】：