【发布时间】:2012-12-16 08:59:07
【问题描述】:
我正在尝试编写一个最小的网络爬虫。目的是从种子中发现新的 URL 并进一步抓取这些新的 URL。代码如下:
use strict;
use warnings;
use Carp;
use Data::Dumper;
use WWW::Mechanize;
my $url = "http://foobar.com"; # example
my %links;
my $mech = WWW::Mechanize->new(autocheck => 1);
$mech->get($url);
my @cr_fronteir = $mech->find_all_links();
foreach my $links (@cr_fronteir) {
if ( $links->[0] =~ m/^http/xms ) {
$links{$links->[0]} = $links->[1];
}
}
我被困在这里,如何进一步爬取 %links 中的链接,以及如何增加深度以防止溢出。欢迎提出建议。
【问题讨论】:
标签: perl recursion web-scraping web-crawler