【发布时间】:2012-03-22 20:54:34
【问题描述】:
我有一堆网页,我想浏览一个脚本并获取其中的所有内容。我知道该链接是每个页面上的第 18 个链接。我有以下代码作为测试,只需点击一次链接并进行屏幕抓取:
use strict;
use WWW::Mechanize;
my $start = "http://*some-webpage*";
my $mech = WWW::Mechanize->new( autocheck => 1 );
$mech->get( $start );
open(Output, ">mech_test.txt") or die $!;
$mech->follow_link(url_regex => qr//, n => 18 );
print Output $mech->response()->content();
close(Output);
不幸的是,我试图访问的链接在 href 标记中没有任何内容。查看页面源链接如下:
<a href="" onclick="return _doClick('CA256D6E001A7020.80376e858b0791b1ca256d7300098304/$Body/0.155A', this, null)">Next >></a>
我相信这是 javascript,mechanize 无法访问此链接。有什么想法可以解决这个问题?
【问题讨论】:
标签: perl screen-scraping www-mechanize