【发布时间】:2012-09-28 06:38:06
【问题描述】:
那里的所有指南都告诉我如何从文本中删除 HTML 标记以提取它们之间的文本。我所追求的是提取 HTML 标记中的数据。
例如
如果我有一个字符串:
"<FONT SIZE="5">Hello World</FONT>"
我想获取字体大小信息来更新其他变量。我该怎么办?
【问题讨论】:
标签: java html string tags extract
那里的所有指南都告诉我如何从文本中删除 HTML 标记以提取它们之间的文本。我所追求的是提取 HTML 标记中的数据。
例如
如果我有一个字符串:
"<FONT SIZE="5">Hello World</FONT>"
我想获取字体大小信息来更新其他变量。我该怎么办?
【问题讨论】:
标签: java html string tags extract
您可以使用一个可用的用于 HTML 解析的 Java 库来解决这个问题,例如 TagSoup。
【讨论】:
您可以使用像 jerichoHTML 这样的库,它使您能够搜索 HTML 标签及其属性,或者您自己构建一些 DOM。
【讨论】:
看看这个: http://en.wikipedia.org/wiki/Java_API_for_XML_Processing 如果您解析 HTML,您应该能够从 DOM 树中提取值。
【讨论】: