【发布时间】:2014-09-05 22:01:36
【问题描述】:
主要问题是获取 html 文件的内容并删除所有标签。
我以前读过这些问题:
在阅读完所有这些后,我决定使用jsoup,它确实对我有帮助。我还意识到如何保留换行符并将<p>标签替换为换行符。
现在我的问题是我有一个 html 文件,其中有一个 <H1> 标记,其中整个内容的标题都可用,我想用换行符保留它,但是使用 jsoup,第一个段落正好在标题之后,没有任何行休息。有人可以帮我吗?
我的 html 代码:
<DIV class="story-headline"><H1 class="story-title">NFL 2014 predictions</H1></DIV><H3 class="story-deck">Our picks for playoff teams, surprises, Super Bowl</H3><P class="small lighttext"><SPAN class="delimited">Posted: Sep 02, 2014 1:30 PM ET</SPAN><SPAN>Last Updated: Sep 04, 2014 10:27 AM ET</SPAN></P>
输出是:
NFL 2014 predictionsOur picks for playoff teams, surprises, Super Bowl
Posted: Sep 02, 2014 1:30 PM ETLast Updated: Sep 04, 2014 10:27 AM ET
我希望它是:
NFL 2014 predictions
Our picks for playoff teams, surprises, Super Bowl
Posted: Sep 02, 2014 1:30 PM ET
Last Updated: Sep 04, 2014 10:27 AM ET
【问题讨论】:
-
关闭你的后添加
HTML 代码是我的输入,我应该如何更改它?
标签: jakarta-ee jsoup