【发布时间】:2009-05-13 03:06:20
【问题描述】:
是否有可用于 PHP 或 Ruby 的网络爬虫库?一个可以在深度优先或广度优先的库......即使在使用 href="../relative_path.html" 和基本 url 时也能处理链接。
【问题讨论】:
标签: php ruby web-crawler
是否有可用于 PHP 或 Ruby 的网络爬虫库?一个可以在深度优先或广度优先的库......即使在使用 href="../relative_path.html" 和基本 url 时也能处理链接。
【问题讨论】:
标签: php ruby web-crawler
【讨论】:
查看此页面以获取 Ruby 库:Ruby Mechanize
我想提一下,您仍将对您的爬虫遍历网站的方式负责。
【讨论】:
你可以在 ruby 中使用 webrat 或 watir, 比机械化容易得多
【讨论】:
如果你想学习基本的网络爬虫和搜索的东西,你可以开始看看“luna引擎”。
【讨论】:
如果您需要抓取使用 javascript 的网页,您可以使用 Capybara 和驱动程序,该驱动程序将启动真正的浏览器,例如 poltergeist。它通常与测试框架一起用于验收测试,但也可以在测试框架之外使用。
【讨论】: