【发布时间】:2012-06-26 13:30:40
【问题描述】:
我有 HTML 页面作为 Java 中的字符串,我需要从中提取 JavaScript 链接。我可以使用任何好的且易于使用的库吗?我查了Cobra 和Neko,但我不认为(也许我错了)他们有我需要的东西,比如获取标签特定的内容。
【问题讨论】:
标签: java javascript html-parsing hyperlink
我有 HTML 页面作为 Java 中的字符串,我需要从中提取 JavaScript 链接。我可以使用任何好的且易于使用的库吗?我查了Cobra 和Neko,但我不认为(也许我错了)他们有我需要的东西,比如获取标签特定的内容。
【问题讨论】:
标签: java javascript html-parsing hyperlink
看看JSoup。它是一个 HTML 解析器,具有用于查找 dom 元素的选择器-DSL(域特定语言)。
例如,要查找所有带有href 的a 标签,您可以这样做:
Document doc = Jsoup.connect("http://www.google.com/").get();
Elements hrefAnchors = doc.select("a[href]");
如果您已经将 html 下载为 String,则可以使用 parse(String) 方法:
String html = "<p>Welcome to <a href='http://www.google.com/'>Google</a>.</p>";
Document doc = Jsoup.parse(html);
【讨论】: