【问题标题】:Fetching web pages with javascript links from Java从 Java 中获取带有 javascript 链接的网页
【发布时间】:2011-05-07 07:16:06
【问题描述】:

我有一个 Java 网络爬虫应用程序,它需要访问网页中的所有链接。问题是在某些页面中,链接是由 javascript 函数生成的。比如:

<a href="someJavascriptFunction()"> Lorem Ipsum </a>

我知道HtmlUnit。但在我的测试中,它对于我的目的来说太慢了。一个本地页面(http://localhost/test.html)需要将近 2 秒才能被获取。其他远程网页需要更多时间。

我想要最简单/最快的方法来查找网页中的所有链接,甚至是 Java 中的 javascript 链接。 (欢迎使用 C/C++ 中的解决方案)。 我也知道Nutch(爬虫)有一个来自 Javascript 的链接提取器,但我不确定是否可以从 Nutch 中“提取”该代码以用于其他上下文。

【问题讨论】:

    标签: java parsing web-crawler html-parsing nutch


    【解决方案1】:

    似乎可以从 Nutch 中提取有用的代码:

    看看main方法如何作为独立的JS链接提取器。

    【讨论】:

      猜你喜欢
      • 2013-02-23
      • 2020-01-25
      • 1970-01-01
      • 2019-10-21
      • 1970-01-01
      • 2018-01-03
      • 1970-01-01
      • 1970-01-01
      • 2018-03-26
      相关资源
      最近更新 更多