【发布时间】:2021-10-18 06:00:29
【问题描述】:
我正在从 Linkedin Sales Navigator 中抓取公司列表及其潜在客户信息。 虽然我能够从销售导航器中抓取公司名称,但在抓取潜在客户信息时遇到了问题。例如:如果 XYZ 是一家公司,而 ABC、PQR、MNO 是他们的潜在客户,我无法抓取他们的信息,例如:“姓名”、“职务”、“联系信息”。
以前,我能够提取记录,但由于销售导航平台改变了它的结构 - 以前,单击潜在客户时,它会打开一个 URL,从那里我能够提取记录。但是现在,该 url 被隐藏,并且潜在客户的个人资料在同一页面上打开。之后,URL 就可见了。
我试图点击潜在客户,然后打开网址并抓取必要的信息..但它失败了。
我尝试在其他调用之间引入 time.sleep,但这并没有太大帮助。 这是我的代码。
lead_links = []
button = browser.find_elements_by_class_name('button--unstyled t-16 font-weight-600 nowrap-ellipsis')
for b in button:
b.click()
leads = soup.find_all("div", attrs={"class": "artdeco-entity-lockup__title artdeco-entity-lockup__title--alt-link ember-view"})
for lead in leads:
lead_links.append(lead.a["href"])
print(leads)
我在这里缺少什么?请帮忙!
【问题讨论】:
-
错误是什么?
-
没有这样的错误..但最初我得到了一个 Nonetype 错误,因为 div 标签中没有 url..这就是我知道他们在网络上改变了他们的设计的方式。
标签: python selenium selenium-webdriver beautifulsoup