【问题标题】:How to parse a file containing html using JSOUP?如何使用 JSOUP 解析包含 html 的文件?
【发布时间】:2018-09-27 17:00:37
【问题描述】:

我有包含 HTML 的文件,我正在尝试解析该文件,然后标记正文的文本。 我通过以下方式实现:

docs = JSOUP.parse("myFile","UTF-8","");
System.out.println(docs.boy().text());

上述代码工作正常,但问题是存在于 html 标记之外且没有任何标记的 TEXT 也被打印为正文标记的一部分。 我需要找到一种方法来阻止 HTML 标记之外的文本被读取 帮助这是一个时间敏感的问题!

【问题讨论】:

    标签: java web jsoup


    【解决方案1】:

    您可以选择和删除文档中不需要的元素。

     doc.select("body > :matchText").remove();
    

    上述语句将删除所有文本节点,它们是正文元素的直接子节点。 :matchText 选择器相当新,所以请确保使用最新版本的 JSoup(1.11.3 肯定可以,但 1.10.2 不行)。

    https://jsoup.org/cookbook/extracting-data/selector-syntax 上查找有关选择器语法的更多信息

    【讨论】:

      猜你喜欢
      • 2018-11-19
      • 2012-11-06
      • 1970-01-01
      • 2015-10-14
      • 1970-01-01
      • 1970-01-01
      • 2011-07-20
      相关资源
      最近更新 更多