【发布时间】:2012-10-08 06:24:11
【问题描述】:
假设我有一个这样的 html 片段:
<p> <span> foo </span> <em> bar <a> foobar </a> baz </em> </p>
我想从中提取的是:
foo bar foobar baz
所以我的问题是:我怎样才能从 html 中剥离所有包装标签,并且只获取与 html 中相同顺序的文本? 正如您在标题中看到的,我想使用 jsoup 进行解析。
重音 html 示例(注意 'á' 字符):
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
我想要什么:
Tarthatatlan biztonsági viszonyok
Tarthatatlan biztonsági viszonyok
这个 html 不是静态的,通常我只想要一个通用 html 片段的每个文本都以解码的人类可读形式,宽度换行符。
【问题讨论】:
-
你试过
fragment.text()吗?