【问题标题】:disable external link's page url checking in php link crawler在 php 链接爬虫中禁用外部链接的页面 url 检查
【发布时间】:2014-04-10 12:12:47
【问题描述】:

我创建了一个独立的链接爬虫脚本,用于使用以下脚本 http://phpcrawl.cuab.de/example.html 在站点中查找损坏的链接。

抓取链接可以正常工作。但它也会检查外部链接及其内容页面 url。但是这个过程不需要只检查内部链接,内部链接的内容页面url和外部链接。不想检查外部链接内容页面 url。 所以我需要禁用对外部链接的内容页面 url 及其 imge src 的检查。 只检查外部链接是否损坏。不要检查该链接的内容页面网址。

【问题讨论】:

    标签: php web-crawler


    【解决方案1】:

    如果您阅读了您正在使用的框架的文档,您会发现 addURLFollowRule() 方法可以强制爬虫仅遵循特定的 URL 模式。

    将此添加到您的代码中并应用正确的 REGEX 模式以匹配您的内部 URL:

    $crawler->addURLFollowRule("#https?://internal/.*# i");
    

    文档:http://phpcrawl.cuab.de/classreferences/PHPCrawler/method_detail_tpl_method_addURLFollowRule.htm

    【讨论】:

    • 谢谢 ji,还有一个问题,在某些地方我只需要检查页面状态,不需要检查该页面的内容 url。请建议我们,我可以使用哪个功能。
    【解决方案2】:

    .. 或者简单地使用 setFollowMode()-settings 之一:

    http://phpcrawl.cuab.de/classreferences/PHPCrawler/method_detail_tpl_method_setFollowMode.htm

    例如$crawler->setFollowMode(2); // Cralwer 留在主机中

    【讨论】:

      猜你喜欢
      • 2010-09-26
      • 2010-12-03
      • 1970-01-01
      • 2010-11-10
      • 1970-01-01
      • 1970-01-01
      • 2017-09-01
      • 2012-04-12
      • 1970-01-01
      相关资源
      最近更新 更多