【发布时间】:2013-05-16 17:34:15
【问题描述】:
Maven 存储库中是否有可以解析 HTML 文档并验证其格式是否正确的 java API?
更新:
我的程序中的代码如下所示:
url = "C:/Users/user1/Desktop/testHTML.html";
FileInputStream fi = new FileInputStream(url);
Tidy tidy = new Tidy();
//tidy.setQuiet(true);
tidy.parse(fi, null);
//tidy.parseDOM(fi, fo);
int tempWarnings = tidy.getParseWarnings();
int tempErrors = tidy.getParseErrors();`
我的 HTML 文件的内容是这样的:
<html>
<head>
<title>This is a sample doc</title>
</head>
<body>
<p> <b>this is a sample paragraph</b></p>
然而,即使 DOCTYPE 和缺失,Tidy 也不会给出任何警告或错误。
【问题讨论】:
标签: java html-parsing