【发布时间】:2015-11-20 06:35:05
【问题描述】:
我需要从像<div>some text</div>这样的html元素中提取内容
在这个元素中,“一些文本”只有我想要在没有任何尖括号的输出中
例如
LineNo:1<HTML>
LineNo:2<HEAD>
LineNo:3<TITLE>Your Title Here</TITLE>
LineNo:4</HEAD>
LineNo:5 <body>
LineNo:6 Bodycontent Start
LineNo:7 <div>
LineNo:8 div content start.
LineNo:9 <div>
LineNo:10 subdiv content
LineNo:11 </div>
LineNo:12 div content end
LineNo:13 </div>
LineNo:14 body content end
LineNo:15 </body>
LineNo:16</HTML>
我需要像这样的输出: start line number 是标签开头的行号 并且内容是该元素的内容,不包括子元素的内容。
start line number : 3, content : Your Title Here content start line number : 5, content : Bodycontent 开始正文内容 end 开始行号:7,内容:div内容开始。 div内容结束 起始行号:9,内容:细分内容
谢谢
【问题讨论】:
-
看看
jsoup:jsoup.org
标签: java html string dom text-extraction