【发布时间】:2011-10-11 16:25:37
【问题描述】:
我正在使用带有 xerces 2.11.0 版本的 NekoHTML 框架来解析 HTML 文档。 但我对这个简单的代码有疑问:
DOMParser parser = new DOMParser();
System.out.println(parser.getClass().toString());
InputSource url = new InputSource("http://www.cbgarden.org");
try{
parser.parse(url);
Document document = parser.getDocument();
System.out.println(document.hasChildNodes());
System.out.println(document.getBaseURI());
System.out.println(document.getNodeName());
System.out.println(document.getNodeValue());
}catch(Exception e){
e.printStackTrace();
}
现在我把多次打印的结果放在这里:
- 类 org.cyberneko.html.parsers.DOMParser
- 是的
- http://www.cbgarden.org
- 文档
- 空
所以我的问题是:可能出了什么问题? 没有抛出异常,我遵循 NekoHTML 的使用规则中定义的规则。我的构建路径库具有以下优先级:
- nekohtml.jar
- nekohtmlSamples.jar
- xercesImpl.jar
- xercesSamples.jar
- xml-apis.jar
【问题讨论】:
-
关于这个主题我还有一个问题:为什么 parser.getDocument() 方法返回一个包含两个节点的文档,其中一个节点为 NULL?
标签: java html parsing cyberneko