【问题标题】:Can I scrape StackOverflow job postings for research purpose?我可以为了研究目的而抓取 StackOverflow 的职位信息吗?
【发布时间】:2020-05-29 06:34:25
【问题描述】:

我正在考虑为我的研究抓取 StackoOverflow 的招聘信息。

具体来说,我将构建网络,其中节点被标记为“行业和技术”的职位发布。

这项研究不是为了个人实践,而是为了发表期刊论文。

在这里,我想知道是否 1) 可以出于研究目的抓取 StackoOverflow 的招聘信息。 2)如果可能的话,有没有办法抓取过去的招聘信息 3) 其他提供招聘信息的数据库。

【问题讨论】:

  • 你可以抓取任何东西,只是这真的取决于 StackoOverflow 是否可以防止抓取,如果可以,难度如何。它可以从简单地在代理之间轮换到使用验证码解决服务来抓取任何网站
  • @DevyDev 请考虑常见的网络抓取规则和君子协议。stackoverflow.com/robots.txt
  • @Jonas 我明白,只是说和你发的一样,可以这样做

标签: web-crawler scrape stackexchange


【解决方案1】:

似乎不是这样,因为/jobs/ 被限制抓取。

见:https://stackoverflow.com/robots.txt

长话短说,您不允许这样做,但从技术上讲是可以的。
聪明点,遵守君子协定。

【讨论】:

    猜你喜欢
    • 2017-12-16
    • 2011-11-07
    • 2010-12-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-04-27
    • 2021-02-26
    相关资源
    最近更新 更多