使用 XMLPullParser 解析包含 html 标记的内容答案

【问题标题】：Parsing content which contains html tags using XMLPullParser使用 XMLPullParser 解析包含 html 标记的内容
【发布时间】：2014-02-28 01:09:18
【问题描述】：

我正在使用 XmlPullParser 在 android 中构建一个应用程序。

如何从这样格式的 html 中获取内容？

<div class="content">
"Some text is here."
<br>
"some more text "<a class="link" href="adress">continues here</a>
<br>
</div>

我想像这样解析所有内容：

"Some text is here. 
 some more text continues here"

“在此处继续”部分也应该是超链接的。

在某些 cmets 之后添加：HTML 首先放入 Yahoo YQL，然后 YQL 生成 XML。我在代码中使用生成的 XML 文件。上面提到的我要解析的部分来自生成的 XML。

【问题讨论】：

【解决方案1】：

尽管在某些情况下它们共享相同的语法，但 HTML 和 XML 是不同的。我认为为此目的使用XmlPullParser 不是一个好主意。我建议为此使用几个Java HTML parsers 之一。

【讨论】：

【解决方案2】：

XmlPullParser 旨在处理 XML。在 Web 上很难遇到结构良好的 XHMTL 页面。 XML Parser 需要格式良好的数据，并且不应该是容错的。另一方面，HTML 通常组织松散。

所以，不，这不是一个好主意。您应该更喜欢其他库，例如 tagsoup 或 geronimo。

PS：当你问一个堆栈溢出问题时，最好的办法是自己尝试一些东西，如果被阻塞，然后问。反之亦然。

【讨论】：

实际上，我首先将 html 放到 Yahoo YQL 中，然后它会从网站生成 XML。之后，我得到这个 XML 并在我的代码中使用它。很抱歉一开始没有这么清楚。
所以，尝试一下，并在您被阻止时询问。