LinkedIn Scraper：如何将公司名称列表转换为 LinkedIn URL？答案

【问题标题】：LinkedIn Scraper: How do I convert a list of company names into LinkedIn URLs?LinkedIn Scraper：如何将公司名称列表转换为 LinkedIn URL？
【发布时间】：2022-01-05 06:48:04
【问题描述】：

我使用 Python、Selenium 和 BeautifulSoup 构建了一个 LinkedIn 网络爬虫，它接收公司的 Linkedin URL 并输出有关公司的信息，例如其竞争对手。

我遇到的问题是我的输入是公司名称列表。有没有办法可以将此公司名称列表转换为可以输入网络爬虫的 LinkedIn URL 列表？谢谢。

【问题讨论】：

我自己遇到了这个问题，发现公司之间的 URL 不一致，只能将公司名称添加到 www.linkedin.com/company/ 我创建了一个辅助刮板，它将搜索公司名称列表，并使用 Selenium 获取排名靠前的搜索结果的 URL，这比尝试通过猜测结构来形成 URL 更准确。
你的 selenium scraper 是否在 google 上搜索了每个公司的名称，然后点击了它的linkedin？
在linkedin中搜索了它——我设置了一个类似的用于谷歌搜索，但发现它不太准确。当然，这里唯一的问题是，对于较小的公司，它可能不太准确。

标签： python selenium web-scraping beautifulsoup linkedin

【解决方案1】：

我认为这可行：

url = "https://www.linkedin.com/company/" + company_name

让我们说“https://www.linkedin.com/company/apple/”

【讨论】：

【解决方案2】：

使用列表推导：

companies = ['companyA','companyB','companyC']

['https://www.linkedin.com/company/'+c for c in companies]

输出：

['https://www.linkedin.com/company/companyA', 'https://www.linkedin.com/company/companyB', 'https://www.linkedin.com/company/companyC']

或直接迭代：

companies = ['companyA','companyB','companyC']

for company in companies:
    url = 'https://www.linkedin.com/company/'+company
    #perform a request
    #scrape what you need

【讨论】：