【发布时间】:2022-01-05 06:48:04
【问题描述】:
我使用 Python、Selenium 和 BeautifulSoup 构建了一个 LinkedIn 网络爬虫,它接收公司的 Linkedin URL 并输出有关公司的信息,例如其竞争对手。
我遇到的问题是我的输入是公司名称列表。有没有办法可以将此公司名称列表转换为可以输入网络爬虫的 LinkedIn URL 列表?谢谢。
【问题讨论】:
-
我自己遇到了这个问题,发现公司之间的 URL 不一致,只能将公司名称添加到 www.linkedin.com/company/ 我创建了一个辅助刮板,它将搜索公司名称列表,并使用 Selenium 获取排名靠前的搜索结果的 URL,这比尝试通过猜测结构来形成 URL 更准确。
-
你的 selenium scraper 是否在 google 上搜索了每个公司的名称,然后点击了它的linkedin?
-
在linkedin中搜索了它——我设置了一个类似的用于谷歌搜索,但发现它不太准确。当然,这里唯一的问题是,对于较小的公司,它可能不太准确。
标签: python selenium web-scraping beautifulsoup linkedin