【问题标题】:LinkedIn Scraper: How do I convert a list of company names into LinkedIn URLs?LinkedIn Scraper:如何将公司名称列表转换为 LinkedIn URL?
【发布时间】:2022-01-05 06:48:04
【问题描述】:

我使用 Python、Selenium 和 BeautifulSoup 构建了一个 LinkedIn 网络爬虫,它接收公司的 Linkedin URL 并输出有关公司的信息,例如其竞争对手。

我遇到的问题是我的输入是公司名称列表。有没有办法可以将此公司名称列表转换为可以输入网络爬虫的 LinkedIn URL 列表?谢谢。

【问题讨论】:

  • 我自己遇到了这个问题,发现公司之间的 URL 不一致,只能将公司名称添加到 www.linkedin.com/company/ 我创建了一个辅助刮板,它将搜索公司名称列表,并使用 Selenium 获取排名靠前的搜索结果的 URL,这比尝试通过猜测结构来形成 URL 更准确。
  • 你的 selenium scraper 是否在 google 上搜索了每个公司的名称,然后点击了它的linkedin?
  • 在linkedin中搜索了它——我设置了一个类似的用于谷歌搜索,但发现它不太准确。当然,这里唯一的问题是,对于较小的公司,它可能不太准确。

标签: python selenium web-scraping beautifulsoup linkedin


【解决方案1】:

我认为这可行:

url = "https://www.linkedin.com/company/" + company_name

让我们说“https://www.linkedin.com/company/apple/”

【讨论】:

    【解决方案2】:

    使用列表推导:

    companies = ['companyA','companyB','companyC']
    
    ['https://www.linkedin.com/company/'+c for c in companies]
    

    输出:

    ['https://www.linkedin.com/company/companyA', 'https://www.linkedin.com/company/companyB', 'https://www.linkedin.com/company/companyC']
    

    或直接迭代:

    companies = ['companyA','companyB','companyC']
    
    for company in companies:
        url = 'https://www.linkedin.com/company/'+company
        #perform a request
        #scrape what you need
    

    【讨论】:

      猜你喜欢
      • 2021-03-10
      • 2016-09-27
      • 2012-12-06
      • 1970-01-01
      • 2021-02-24
      • 1970-01-01
      • 2023-03-09
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多