【问题标题】:Web scraping through proxies通过代理进行网络抓取
【发布时间】:2016-10-16 02:38:49
【问题描述】:

我目前正在使用网络抓取工具(Octoparse)从一些网站中提取信息。以前,我可以使用代理来提取信息。我无法使用自己的 IP 地址,因为在提取了一些项目后我会被屏蔽。最近,该网站似乎已阻止代理访问该网站(见下面的截图)。我当然可以找到其他网站,但它们碰巧不如这个。我可以知道是否有办法解决这个问题?

PS:我是一名学生,只是想提取信息制作学习用的闪存卡,没有任何恶意。

【问题讨论】:

  • 这是一个非常难的问题。根据保护的类型,您可能不走运。你需要做的事情太多了。

标签: proxy web-scraping server web-crawler bots


【解决方案1】:

我注意到你提到了 Octoparse。据我所知,Octoparse 提供 IP 代理。但是,在不同版本中使用 IP 代理有很大的不同。您应该手动添加文本框中的 IP 代理,而如果您使用标准版或专业版,Octoparse 将提供 500 多个第三方代理用于自动 IP 轮换。因此,如果您自己没有 IP 代理,我建议您使用标准版。如果你想了解更多,可以关注教程Use Proxy Servers for Anonymous Web Scraping了解更多。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-11-09
    • 1970-01-01
    • 1970-01-01
    • 2023-03-17
    • 1970-01-01
    相关资源
    最近更新 更多