【问题标题】:How to remove HTML element of String? [duplicate]如何删除字符串的 HTML 元素? [复制]
【发布时间】:2014-01-27 14:38:33
【问题描述】:

我想在 Java 中删除字符串的 HTML。

<hr><b><strong>Task Details</strong></b><hr><b>Date Created: </b> 01/06/2014 07:55pm<br><b>Date Modified: </b> 01/06/2014 07:55pm<br><b>Assigned to: </b> Administrator<br><b>Created By: </b> Administrator<br><b>Status: </b> Not Started<br><b>Description: </b> Test Description<br>.

上面是我的字符串,我想删除 HTML 标签。

【问题讨论】:

  • 这些是 HTML 标签吗?输入似乎没有 HTML 标记。
  • 问题不够清楚。你在说什么字符串和什么 HTML 标签?您能否详细说明问题并提及您到底想要实现什么?
  • 'Java' 对应于 'JavaScript' 就像 'Car' 对应于 'Carpet'。那么您使用的是哪种语言?
  • 我只是将 [java] 和 [javascript] 都留在问题中,直到您弄清楚您使用的是哪种语言...请相应地重新标记它。

标签: java javascript html


【解决方案1】:

也许这会起作用:

String noHTMLString = htmlString.replaceAll("\\<.*?>","");

它使用正则表达式来删除字符串中的所有 HTML 标签。

更具体地说,它会从字符串中删除所有类似 XML 的标签。因此,即使 不是有效的 HTML 标记,它也会被删除。但它对大多数意图和目的都有好处。

希望这会有所帮助。

Jsoup. 这实际上非常简单

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

【讨论】:

  • -1 从this earlier answer 复制逐字未署名的答案的第一部分“希望对您有帮助”。除非你是同一个海报,否则这是一个很大的网络礼仪禁忌。
【解决方案2】:

您可以使用 Jsoup 库。

String str="<h3>My Text</h3>";
System.out.println(Jsoup.parse(str).text());

上面的代码去掉了所有的htms标签,并留下文本作为输出

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-06-06
    • 2016-01-19
    • 2021-08-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-05-24
    • 1970-01-01
    相关资源
    最近更新 更多