【问题标题】:Data Crawling From Linkedin从 Linkedin 抓取数据
【发布时间】:2017-08-28 09:20:28
【问题描述】:

我正在尝试从 Linkedin 抓取用于个人数据抓取实践的数据。但我无法在没有登录的情况下抓取数据。所以我用了两种方式来模拟登录。一种是从HttpClient获取cookies,它会尝试做一个模拟登录来获取cookies。另一种是直接添加cookie。但我两个都失败了。我不知道原因。 我使用 Framework Webmagic 进行数据爬取。 一般来说,直接添加 Cookie 是一种简单的方法。但我不知道我是否添加了错误的 cookie。 事情就是这样。我想从网站https://www.linkedin.com/mynetwork/invite-connect/connections/ 获取数据 我在这个页面上添加了所有的 cookie。

这是所有的 cookie。

private Site site = Site.me().setRetryTimes(3).setSleepTime(100);
site.setCharset("utf-8")
   .setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36")
   .addHeader("accept","text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8")
   .addHeader("accept-encoding","gzip, deflate, br")
   .addHeader("accept-language:en-US","en;q=0.8")
   .addHeader("connection", "keep-alive")
   .addHeader("referer","https://www.linkedin.com/")
   .addCookie(".linkedin.com","lidc", "b=TB91:g=750:u=38:i=1503815541:t=1503895683:s=AQE5xZLW6mVmRdHBY9qNO-YOiyAnKtgk")
   .addCookie(".linkedin.com","lang", "v=2&lang=en-us")
   .addCookie(".linkedin.com","_lipt", "CwEAAAFeIo5-jXjgrpSKF4JfxzNbjC6328JPUgtSHQIKtSDyk4Bockuw84uMkCwbKS0TzUOM_w8Al4s9YjFFF-0T43TPtfG_wv-JNVXsPeO8mVxaYwEcTGiyOdyaRZOCIK7qi02EvZUCtjsaTpAos60U4XrFnu1FO-cY1LrzpqDNUmfrqWJPjSoZpOmjeKtTh-nHcdgpruvjf237E78dqMydLLd1A0Uu7Kr7CmNIurXFd9-Z4hwevLRd3SQMEbSRxAwCclgC4tTzEZ5KoFmpI4veKBFGOqF5MCx3hO9iNRdHrJC44hfRx-Bw7p__PYNWF8sc6yYd0deF-C5aJpronFUYp3vXiwt023qm6T9eRqVvtH1BRfLwCZOJmYrGbKzq4plzNKM7DnHKHNV_cjJQtc9aD3JQz8n2GI-cHx2PYubUyIjVWWvntKWC-EUtn4REgL4jmIaWzDUVz3nkEBW7I3Wf6u2TkuAVu9vq_0mW_dTVDCzgASk")
   .addCookie(".linkedin.com","_ga", "GA1.2.2091383287.1503630105")
   .addCookie(".www.linkedin.com","li_at", "AQEDAReIjksE2n3-AAABXiKOYVQAAAFeRprlVFYAV8gUt-kMEnL2ktiHZG-AOblSny98srz2r2i18IGs9PqmSRstFVL2ZLdYOcHfPyKnBYLQPJeq5SApwmbQiNtsxO938zQrrcjJZxpOFXa4wCMAuIsN")
   .addCookie(".www.linkedin.com","JSESSIONID", "ajax:4085733349730512988")
   .addCookie(".linkedin.com","liap", "true")
   .addCookie(".www.linkedin.com","sl","v=1&f68pf")
   .addCookie("www.linkedin.com","visit", "v=1&M")
   .addCookie(".www.linkedin.com","bscookie", "v=1&201708250301246c8eaadc-a08f-4e13-8f24-569529ab1ce0AQEk9zZ-nB0gizfSrOSucwXV2Wfc3TBY")
   .addCookie(".linkedin.com","bcookie", "v=2&d2115cf0-88a6-415a-8a0b-27e56fef9e39");

我错过了什么吗?

【问题讨论】:

    标签: cookies web-crawler


    【解决方案1】:

    LinkedIn 很难抓取,不仅在技术上,而且sue people who do

    当他们检测到某个 IP 可能是机器人时,他们会为您提供登录页面。他们为机器人所知的大多数 IP 地址现在都提供登录页面。新的范围不会持续很长时间。

    他们可能只是非常确信你是一个机器人并阻止你登录。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-02-26
      • 1970-01-01
      • 2021-02-28
      • 1970-01-01
      • 2022-08-18
      • 1970-01-01
      • 2020-02-20
      • 1970-01-01
      相关资源
      最近更新 更多