【发布时间】:2018-09-27 17:00:37
【问题描述】:
我有包含 HTML 的文件,我正在尝试解析该文件,然后标记正文的文本。 我通过以下方式实现:
docs = JSOUP.parse("myFile","UTF-8","");
System.out.println(docs.boy().text());
上述代码工作正常,但问题是存在于 html 标记之外且没有任何标记的 TEXT 也被打印为正文标记的一部分。 我需要找到一种方法来阻止 HTML 标记之外的文本被读取 帮助这是一个时间敏感的问题!
【问题讨论】: