【发布时间】:2012-12-04 12:57:39
【问题描述】:
我想用 Java 解析 HTML 文本。
我尝试使用 javax.swing.text.html.HTMLEditorKit 解析 HTML 数据。它帮助我从 HTML 中获取数据。但我有一个 HTML 数据,比如 -
<span class="TitleServiceChange" >Service Change</span>
<span class="DateStyle">
&nbsp;Posted:&nbsp;12/16/2012&nbsp; 8:00PM
</span><br/><br/>
<P>
周围有 '<' 和 '>' 而不是 ' 和 '>'
在解析上述文本时,我收到了错误 - 请建议我解决我的问题。
提前致谢。Parsing error: start.missing body ? ? at
【问题讨论】:
-
您上面显示的 HTML 数据不是 HTML,因为它没有标签。如果您希望将 HTML 实体转换为有效的 XML 结构,则应使用 String.replace。
-
@TomLeese,如果我将此数据粘贴到浏览器中,它会正确显示,我也在 view.xmlgrid.net 中尝试过,然后它会以正确的格式显示
-
@Deepu :严格来说,上面显示的字符串就是一个字符串(因此应该显示为 text,而不是作为标记处理)。
-
现在的浏览器有很多内置的纠错功能,所以如果它正在渲染,你的浏览器实际上可能会通过转换 < 来“修复”你输入的代码。和>在将其作为标记处理之前的符号。
标签: java html-parsing htmleditorkit