【发布时间】:2018-08-05 09:40:26
【问题描述】:
我正在尝试使用 Jsoup(版本:1.7.3)解析 MHT 文档。目标是打开两个文件并将它们合并在一起(连接头部和身体)以获得一个完整的文件。 但首先我在解析 mht 文件时遇到了问题,因为解析后的结果有明显的信息滞后,解析后无法打开。我所做的如下:
- 使用 Word 创建一个 mht 文件(包含一个图像和一些文本)
- 使用 Jsoup 将其解析为字符串
- 将字符串写入文件
- 打开文件,文件坏了
我使用了以下代码:
private static final String USED_CHARSET = "windows-1252";
private static final String PATH = "C:\\Test\\";
private static final Charset CHARSET = Charset.forName(USED_CHARSET);
@Test
public void test() throws IOException {
Document doc = Jsoup.parse(new File(PATH, "sourceMht.mht"),
USED_CHARSET);
writeDoc(new File(PATH, "parsedMht.mht"), doc.html());
}
private void writeDoc(File file, String html) throws IOException {
Writer out = new BufferedWriter(new OutputStreamWriter(
new FileOutputStream(file), CHARSET));
try {
out.write(html);
} finally {
out.flush();
out.close();
}
}
感谢您的帮助。
【问题讨论】: