领英网络爬虫答案

【问题标题】：LinkedIn Webscrape领英网络爬虫
【发布时间】：2018-04-08 12:13:19
【问题描述】：

我需要获取 Linkedin 个人资料的基本个人资料数据（完整页面 - html）。我尝试了诸如beautifulsoup之类的python包，但访问被拒绝。

我已经为linkedIn 生成了api 令牌，但我不确定如何将它们合并到代码中。

基本上，我想通过提供公司名称来自动化抓取过程。

请帮忙。谢谢！

【问题讨论】：

我知道这是一年前发布的，但我在不使用 API 的情况下从 LinkedIn 获取数据的工作是使用 selenium 登录并导航到所需页面，然后从页面中获取 html (使用美丽的汤），然后我可以从中提取数据。

【解决方案1】：

Beautiful Soup 是一个网络爬虫。通常，人们使用这个库来解析来自公共网站或没有 API 的网站的数据。例如，您可以使用它来抓取前 10 个 Google 搜索结果。

与网络抓取工具不同，API 可让您检索非公开网站背后的数据。此外，它以易于阅读的 XML 或 JSON 格式返回数据，因此您不必为您关心的特定数据“抓取”HTML 文件。

要对 LinkedIn 进行 API 调用，需要使用 python HTTP 请求库。有关示例，请参阅this stackoverflow post。

看看Step 4 of the LinkedIn API documentation。它显示了一个示例 HTTP GET 调用。

GET /v1/people/~ HTTP/1.1 Host: api.linkedin.com Connection: Keep-Alive Authorization: Bearer AQXdSP_W41_UPs5ioT_t8HESyODB4FqbkJ8LrV_5mff4gPODzOYR

请注意，您还需要发送“授权”标头以及 HTTP GET 调用。这是您的令牌将去的地方。您现在可能会被拒绝访问，因为您没有在请求中设置此标头。

Here's an example 了解如何使用 requests 库将该标头添加到请求中。

应该就是这样。当您发出该请求时，它应该返回包含您想要的数据的 XML 或 JSON。您可以使用 XML 或 JSON 解析器来获取所需的特定字段。

【讨论】：