【发布时间】:2012-07-21 17:32:17
【问题描述】:
如何使用Mechanize 库查找网站上的所有链接?
我想递归解析内部链接以获取网站的所有链接。
【问题讨论】:
标签: ruby recursion mechanize web-crawler
如何使用Mechanize 库查找网站上的所有链接?
我想递归解析内部链接以获取网站的所有链接。
【问题讨论】:
标签: ruby recursion mechanize web-crawler
你看过Anemone gem 吗?它是专门为爬虫网站创建的。
您可以执行以下操作来获取并打印网站的所有链接:
require 'anemone'
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.focus_crawl { |page| puts page.links }
end
如果您想爬取整个页面,排除某些类型的链接,或者排除类似的链接,它有相当好的文档可供选择。
【讨论】:
不是 ruby 解决方案,但我发现 this script 简单有效。
【讨论】: