【发布时间】:2011-05-07 07:16:06
【问题描述】:
我有一个 Java 网络爬虫应用程序,它需要访问网页中的所有链接。问题是在某些页面中,链接是由 javascript 函数生成的。比如:
<a href="someJavascriptFunction()"> Lorem Ipsum </a>
我知道HtmlUnit。但在我的测试中,它对于我的目的来说太慢了。一个本地页面(http://localhost/test.html)需要将近 2 秒才能被获取。其他远程网页需要更多时间。
我想要最简单/最快的方法来查找网页中的所有链接,甚至是 Java 中的 javascript 链接。 (欢迎使用 C/C++ 中的解决方案)。 我也知道Nutch(爬虫)有一个来自 Javascript 的链接提取器,但我不确定是否可以从 Nutch 中“提取”该代码以用于其他上下文。
【问题讨论】:
标签: java parsing web-crawler html-parsing nutch