【问题标题】:Use Mechanize to retrieve ALL links of a website使用 Mechanize 检索网站的所有链接
【发布时间】:2012-07-21 17:32:17
【问题描述】:

如何使用Mechanize 库查找网站上的所有链接?

我想递归解析内部链接以获取网站的所有链接。

【问题讨论】:

    标签: ruby recursion mechanize web-crawler


    【解决方案1】:

    你看过Anemone gem 吗?它是专门为爬虫网站创建的。

    您可以执行以下操作来获取并打印网站的所有链接:

    require 'anemone'
    
    Anemone.crawl("http://www.example.com/") do |anemone|
      anemone.focus_crawl { |page| puts page.links }
    end
    

    如果您想爬取整个页面,排除某些类型的链接,或者排除类似的链接,它有相当好的文档可供选择。

    【讨论】:

      【解决方案2】:

      不是 ruby​​ 解决方案,但我发现 this script 简单有效。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2019-07-27
        • 2012-02-07
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2013-10-04
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多