【发布时间】:2020-02-20 20:20:56
【问题描述】:
我知道是否允许抓取 LinkedIn 存在讨论;但来自以下文章: https://www.forbes.com/sites/emmawoollacott/2019/09/10/linkedin-data-scraping-ruled-legal/#787286c31b54
我认为可以肯定地说,抓取来自 LinkedIn 的公开数据是合法的。
现在,我正在尝试在特定地区搜索特定职位的职位搜索。 到目前为止一切顺利,除了抓取的作业数量限制为 25 个之外,一切正常。
我正在尝试使用以下技巧: 在 URL 中,我传递了一个关键字 &start=X X 从 0 到 25、50 等等。
在浏览器中,这使我可以转到下一页视图并从那里提取作业。 但是,使用 scrapy 这个方法是行不通的。
代码如下:
res = requests.get('https://www.linkedin.com/jobs/search/?keywords={}&location={}&start=25'.format(job, location))
response = TextResponse(res.url, body=res.text, encoding='utf-8')
print("processing:" + response.url)
输出:
处理中:https://www.linkedin.com/jobs/search/?keywords=Data+Scientist&location=Brussels&start=0
即使我将其硬编码为 25(第 2 页),它也会将其设置为 0。
你知道如何解决这个问题吗?
【问题讨论】:
-
“在浏览器中”是什么意思?我已经在 Google Chrome 上尝试过,如果您指定 start=some_number,它会将您重定向到 start=0。您能否描述一下您在浏览器中从 25 开始可视化结果所采取的步骤?
-
对我来说不是,还有谷歌浏览器。我只是复制此链接,例如:
-
你具体看到了什么。当您向下查看更多职位时,您看到的是页码还是“点击查看更多职位”?
-
是的,我看到了更多的工作,但在我的情况下它没有任何作用,如果我将 url 更改为 start=25,它会将我重定向到 start=0。