如何使用 JSOUP 解析包含 html 的文件？答案

【问题标题】：How to parse a file containing html using JSOUP?如何使用 JSOUP 解析包含 html 的文件？
【发布时间】：2018-09-27 17:00:37
【问题描述】：

我有包含 HTML 的文件，我正在尝试解析该文件，然后标记正文的文本。我通过以下方式实现：

docs = JSOUP.parse("myFile","UTF-8","");
System.out.println(docs.boy().text());

上述代码工作正常，但问题是存在于 html 标记之外且没有任何标记的 TEXT 也被打印为正文标记的一部分。 我需要找到一种方法来阻止 HTML 标记之外的文本被读取帮助这是一个时间敏感的问题！

【问题讨论】：

【解决方案1】：

您可以选择和删除文档中不需要的元素。

 doc.select("body > :matchText").remove();

上述语句将删除所有文本节点，它们是正文元素的直接子节点。 :matchText 选择器相当新，所以请确保使用最新版本的 JSoup（1.11.3 肯定可以，但 1.10.2 不行）。

【讨论】：