使用 Mechanize 检索网站的所有链接

【问题标题】：Use Mechanize to retrieve ALL links of a website使用 Mechanize 检索网站的所有链接
【发布时间】：2012-07-21 17:32:17
【问题描述】：

如何使用Mechanize 库查找网站上的所有链接？

我想递归解析内部链接以获取网站的所有链接。

【问题讨论】：

【解决方案1】：

你看过Anemone gem 吗？它是专门为爬虫网站创建的。

您可以执行以下操作来获取并打印网站的所有链接：

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.focus_crawl { |page| puts page.links }
end

如果您想爬取整个页面，排除某些类型的链接，或者排除类似的链接，它有相当好的文档可供选择。

【讨论】：

【解决方案2】：

不是 ruby 解决方案，但我发现 this script 简单有效。

【讨论】：