【问题标题】:PHP scraping thwarted by redirects重定向阻止了 PHP 抓取
【发布时间】:2023-03-04 22:06:01
【问题描述】:

我正在尝试将图书馆搜索引擎转换为 php 脚本中的移动友好网站。计划是抓取结果并呈现一个简化的表单,因为该网站目前仅在大型浏览器中看起来不错。

我在使用http://simplehtmldom.sourceforge.net 时遇到了一点麻烦,因为每次我尝试通过加载此页面www.librarywebsite.com/search.php?query=BOOKTITLE 来加载查询时,它都会经过多次重定向,然后显示一个最终结果页面,该页面在 url 中有一组类似的参数但是,如果刷新,无论如何都会坚持重定向。

有谁知道如何在所有重定向完成后才执行 DOM 抓取?

【问题讨论】:

  • 他们有自己的移动项目,也许他们不想让你窃取他们的数据
  • 如果他们已经有了我就不会打扰了。你能告诉我在哪里吗?
  • 您链接到的页面底部,它说即将推出一个
  • @Dagon 我认为这条消息已经很老了(2 年以上)
  • 可以做一些疯狂的事情并与他们交谈,如果他们没有自己的移动项目,我相信他们会帮助你。

标签: php dom scrape


【解决方案1】:

您可以考虑使用启用跟随重定向的 cURL 之类的东西。我相信 cURL 选项是 CURLOPT_FOLLOWLOCATION。见:http://php.net/manual/en/function.curl-setopt.php

【讨论】:

    猜你喜欢
    • 2011-08-31
    • 2017-07-26
    • 1970-01-01
    • 1970-01-01
    • 2018-12-23
    • 1970-01-01
    • 2011-05-30
    • 1970-01-01
    • 2013-02-04
    相关资源
    最近更新 更多