【问题标题】:LinkedIn Webscrape领英网络爬虫
【发布时间】:2018-04-08 12:13:19
【问题描述】:

我需要获取 Linkedin 个人资料的基本个人资料数据(完整页面 - html)。我尝试了诸如beautifulsoup之类的python包,但访问被拒绝。

我已经为linkedIn 生成了api 令牌,但我不确定如何将它们合并到代码中。

基本上,我想通过提供公司名称来自动化抓取过程。

请帮忙。谢谢!

【问题讨论】:

  • 我知道这是一年前发布的,但我在不使用 API 的情况下从 LinkedIn 获取数据的工作是使用 selenium 登录并导航到所需页面,然后从页面中获取 html (使用美丽的汤),然后我可以从中提取数据。

标签: python scrape linkedin-api


【解决方案1】:

Beautiful Soup 是一个网络爬虫。通常,人们使用这个库来解析来自公共网站或没有 API 的网站的数据。例如,您可以使用它来抓取前 10 个 Google 搜索结果。

与网络抓取工具不同,API 可让您检索非公开网站背后的数据。此外,它以易于阅读的 XML 或 JSON 格式返回数据,因此您不必为您关心的特定数据“抓取”HTML 文件。

要对 LinkedIn 进行 API 调用,需要使用 python HTTP 请求库。有关示例,请参阅this stackoverflow post

看看Step 4 of the LinkedIn API documentation。它显示了一个示例 HTTP GET 调用。

GET /v1/people/~ HTTP/1.1 Host: api.linkedin.com Connection: Keep-Alive Authorization: Bearer AQXdSP_W41_UPs5ioT_t8HESyODB4FqbkJ8LrV_5mff4gPODzOYR

请注意,您还需要发送“授权”标头以及 HTTP GET 调用。这是您的令牌将去的地方。您现在可能会被拒绝访问,因为您没有在请求中设置此标头。

Here's an example 了解如何使用 requests 库将该标头添加到请求中。

应该就是这样。当您发出该请求时,它应该返回包含您想要的数据的 XML 或 JSON。您可以使用 XML 或 JSON 解析器来获取所需的特定字段。

【讨论】:

    猜你喜欢
    • 2011-12-11
    • 1970-01-01
    • 1970-01-01
    • 2018-08-12
    • 2012-08-01
    • 2015-05-12
    • 2013-03-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多