【发布时间】:2014-04-13 10:51:13
【问题描述】:
我们正在使用 jsoup - 非常感谢。
我们可能会得到没有 http-equiv 元标记的 HTML 文件,并且字符集可能不是 UTF-8。 请问这个怎么处理最好。我们可以有一个编码列表并尝试它们,但我不确定如何以编程方式判断是否有问题。 jsoup 会抛出 IOException 吗?
【问题讨论】:
标签: html character-encoding jsoup
我们正在使用 jsoup - 非常感谢。
我们可能会得到没有 http-equiv 元标记的 HTML 文件,并且字符集可能不是 UTF-8。 请问这个怎么处理最好。我们可以有一个编码列表并尝试它们,但我不确定如何以编程方式判断是否有问题。 jsoup 会抛出 IOException 吗?
【问题讨论】:
标签: html character-encoding jsoup
Jsoup 将尝试通过 content type header 或 http equiv tag 来确定编码,如果您没有它们,它将使用 utf8。不确定 jsoup 是否可以在这里为您做更多的事情。
但你可以尝试另一种方法:
实现一个为您读取文件的类。在那里,您可以处理所有编码问题。因此,这样的类应该为您提供正确的编码字符串,或者至少为您的输入提供编码。
(html input) --> [encoding class] --normalized encoding--> [jsoup] --> (whatever)
Jsoup 现在可以使用已知编码解析该输入。
我猜想改变 html-creation 是不可能的,不是吗?
进一步阅读:
【讨论】: