【发布时间】:2012-08-17 16:19:51
【问题描述】:
我正在使用 HtmlUnit 2.10。我正在为网站创建一个小型链接验证器。对于爬行,我正在使用它。在我的研究期间,我试图爬行:loans.xxxxxxx.com。它有 58 个锚标签和 5 个链接标签。
我正在写这样的代码
List<HtmlElement> elementsOfPage = (List<HtmlElement>) htmlPage.getElementsByTagName("link");
Iterator<HtmlElement> it = elementsOfPage.iterator();
System.out.println(elementsOfPage.size());
while(it.hasNext()) {
HtmlElement htmlElement = it.next();
System.out.println(htmlElement.toString());
}
我也对锚标记执行相同的程序,即 a.对于链接,它只显示 3,对于锚点,它只显示 56,即使分别有 5 和 58。
代码中有一些部分被注释了,我以为网络客户端会忽略它,但如果你真的打印它会显示一些结果实际上来自注释代码。
// 在运行 webclient 之前,我禁用了 applet、css、javascripts 并将超时时间增加到 7 秒。
为什么这种行为很奇怪?
【问题讨论】:
标签: java jakarta-ee web-crawler htmlunit