【问题标题】:need to extract contents only from the html dom elements只需要从 html dom 元素中提取内容
【发布时间】:2015-11-20 06:35:05
【问题描述】:

我需要从像<div>some text</div>这样的html元素中提取内容 在这个元素中,“一些文本”只有我想要在没有任何尖括号的输出中

例如

LineNo:1<HTML>
LineNo:2<HEAD>
LineNo:3<TITLE>Your Title Here</TITLE>
LineNo:4</HEAD>
LineNo:5  <body>
LineNo:6  Bodycontent Start
LineNo:7    <div>
LineNo:8      div content start.
LineNo:9        <div> 
LineNo:10          subdiv content
LineNo:11        </div>
LineNo:12      div content end
LineNo:13    </div>
LineNo:14     body content end
LineNo:15  </body>
LineNo:16</HTML>

我需要像这样的输出: start line number 是标签开头的行号 并且内容是该元素的内容,不包括子元素的内容。

start line number : 3, content : Your Title Here content start line number : 5, content : Bodycontent 开始正文内容 end 开始行号:7,内容:div内容开始。 div内容结束 起始行号:9,内容:细分内容

谢谢

【问题讨论】:

标签: java html string dom text-extraction


【解决方案1】:

您可以将replaceAll 与正则表达式&lt;[^&lt;]+&gt; 一起使用并替换为空字符串。

String myStr = ...;
String myStrExtracted = myStr.replaceAll("<[^<]+>", "");

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-04-09
    • 1970-01-01
    • 2020-03-05
    • 2013-06-20
    • 2018-05-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多