【发布时间】:2011-02-18 00:29:56
【问题描述】:
我想抓取/收集页面上特定类名下的所有链接
例如HTML 农业 (92)
<a href="http://www.specificurl/page.html" class="generate">Agriculture</a>
我一直在玩弄以下代码:
List<?> links = page.getByXPath("//div[@class='generate']/@href");
OR
List<?> links = page.getAnchors();
System.out.println(links);
getByXPath 选项返回 null,另一个选项获取所有锚点。有没有办法将链接抓取到列表中?
【问题讨论】:
-
有没有办法从一个页面上刮掉所有的链接?我需要抓取产品,并相信先抓取所有产品 url,然后点击每个是最好的方法?