【问题标题】:Java - Extract html information from stringJava - 从字符串中提取 html 信息
【发布时间】:2012-09-28 06:38:06
【问题描述】:

那里的所有指南都告诉我如何从文本中删除 HTML 标记以提取它们之间的文本。我所追求的是提取 HTML 标记中的数据。

例如

如果我有一个字符串:

 "<FONT SIZE="5">Hello World</FONT>"

我想获取字体大小信息来更新其他变量。我该怎么办?

【问题讨论】:

    标签: java html string tags extract


    【解决方案1】:

    为此,我已经多次使用jsoup。这是一个宽松的 HTML 解析器。小心尝试将其解析为“标准”XML,因为 XML 解析本质上是严格的,如果页面不符合 XML 标记规范(很少有 HTML 页面这样做),则会失败。

    【讨论】:

    • 查看Cookbook下的jsoup主页。很多例子。喜欢this
    【解决方案2】:

    您可以使用一个可用的用于 HTML 解析的 Java 库来解决这个问题,例如 TagSoup

    【讨论】:

    【解决方案3】:

    您可以使用像 jerichoHTML 这样的库,它使您能够搜索 HTML 标签及其属性,或者您自己构建一些 DOM。

    【讨论】:

      【解决方案4】:

      看看这个: http://en.wikipedia.org/wiki/Java_API_for_XML_Processing 如果您解析 HTML,您应该能够从 DOM 树中提取值。

      【讨论】:

      • -1 非常糟糕的主意。很少有 HTML 页面与 XML 足够接近,可以被 XML 解析器解析。 HTML != XML。而且由于浏览器是宽松的,即使是用 XHTML 开发的页面也往往是“草率的”。
      猜你喜欢
      • 2014-10-25
      • 2015-01-25
      • 2022-01-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多