从 Java 中获取带有 javascript 链接的网页答案

【问题标题】：Fetching web pages with javascript links from Java从 Java 中获取带有 javascript 链接的网页
【发布时间】：2011-05-07 07:16:06
【问题描述】：

我有一个 Java 网络爬虫应用程序，它需要访问网页中的所有链接。问题是在某些页面中，链接是由 javascript 函数生成的。比如：

<a href="someJavascriptFunction()"> Lorem Ipsum </a>

我知道HtmlUnit。但在我的测试中，它对于我的目的来说太慢了。一个本地页面（http://localhost/test.html）需要将近 2 秒才能被获取。其他远程网页需要更多时间。

我想要最简单/最快的方法来查找网页中的所有链接，甚至是 Java 中的 javascript 链接。（欢迎使用 C/C++ 中的解决方案）。我也知道Nutch（爬虫）有一个来自 Javascript 的链接提取器，但我不确定是否可以从 Nutch 中“提取”该代码以用于其他上下文。

【问题讨论】：

【解决方案1】：

似乎可以从 Nutch 中提取有用的代码：

看看main方法如何作为独立的JS链接提取器。

【讨论】：