【问题标题】:Why by scraping LinkedIn it cannot load the requested url? Python为什么通过抓取 LinkedIn 它无法加载请求的 url? Python
【发布时间】:2020-10-15 15:30:35
【问题描述】:

我正在尝试抓取 LinkedIn,该脚本运行了 3 个月,但昨天它崩溃了。

我使用 selenium webdriver,Firefox 和假用户代理。

网址是https://www.linkedin.com/company/my_company/

def init_driver():
    """Initiates selenium webdriver.
    :return: Firefox browser instance
    """
    try:
        #  use random UserAgent to avoid captcha
        fp = webdriver.FirefoxProfile()
        fp.set_preference("general.useragent.override", UserAgent().random)
        fp.update_preferences()
        # initiate driver
        options = FirefoxOptions()
        #options.add_argument("--headless")
        return webdriver.Firefox(firefox_options=options)
    except Exception as e:
        logging.error('Exception occurred initiating webdriver', exc_info=True)

然后只需打开一个页面 driver.get(url)

此时它打开但无法加载

如果没有假代理和使用 chrome,也会发生同样的情况。

有没有人遇到过这样的事情?当我自己打开链接时,一切正常。

https://www.linkedin.com/authwall?trk=gf&trkInfo=AQFvPeNP8NQIxwAAAXLqc-uI5rnQe1ZIysPcZOgjZCzbrBHZj7q6gd68fPG9NzbX00Rlre_yC0tITChjMDEXSNnD8tZRaMXqcRG-z_3QUMlCvQPR4uVGBQYoSOl3ycoO2E6Jl9w=&originalReferer=&sessionRedirect=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2my_company%2F

该功能打开其他网址没有问题

【问题讨论】:

    标签: python selenium web-scraping linkedin


    【解决方案1】:

    这就是你应该如何修改你的代码。

    我修改了你的代码,你的代码被正确执行了。

    from selenium import webdriver
    from fake_useragent import UserAgent
    import logging
    
    def init_driver():
        """Initiates selenium webdriver.
        :return: Firefox browser instance
        """
    
        path = r"your firefox driver path"
    
        try:
            #  use random UserAgent to avoid captcha
            fp = webdriver.FirefoxProfile()
            fp.set_preference("general.useragent.override", UserAgent().random)
            fp.update_preferences()
            # initiate driver
            options = webdriver.FirefoxOptions()
            # options.add_argument("--headless")
            return webdriver.Firefox(firefox_options=options, executable_path=path)
        except Exception:
            logging.error('Exception occurred initiating webdriver', exc_info=True)
    
    
    
    
    url = "your url"
    
    driver = init_driver()
    
    
    driver.get(url)
    

    【讨论】:

      猜你喜欢
      • 2021-12-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-02-03
      相关资源
      最近更新 更多