【问题标题】:How to add a UTF-8 BOM in Java?如何在 Java 中添加 UTF-8 BOM?
【发布时间】:2011-05-22 07:12:13
【问题描述】:

我有一个 Java 存储过程,它使用 Resultset 对象从表中获取记录并创建一个 CS Vfile。

BLOB retBLOB = BLOB.createTemporary(conn, true, BLOB.DURATION_SESSION);
retBLOB.open(BLOB.MODE_READWRITE);
OutputStream bOut = retBLOB.setBinaryStream(0L);

ZipOutputStream zipOut = new ZipOutputStream(bOut);
PrintStream out = new PrintStream(zipOut,false,"UTF-8");
out.write('\ufeff');
out.flush();

zipOut.putNextEntry(new ZipEntry("filename.csv"));
while (rs.next()){
    out.print("\"" + rs.getString(i) + "\"");
    out.print(",");
}
out.flush();

zipOut.closeEntry();
zipOut.close();
retBLOB.close();

return retBLOB;

但生成的 CSV 文件未显示正确的德语字符。 Oracle 数据库还有一个NLS_CHARACTERSET UTF8 值。

请提出建议。

【问题讨论】:

  • 如果您以前没有遇到过这种情况,请注意 Unicode 标准不要求或不推荐使用带有 UTF-8 的 BOM。它也不违法,但不应随意使用。有关详细信息,请参阅here,包括有关何时何地使用它的一些指南。如果您尝试在 Windows 中查看 csv 文件,这可能是对 BOM 的有效使用。
  • 是的,我们正在尝试在 Windows 中查看 csv,但生成的 csv 仍然显示德语字符的乱码。这是设置 BOM 的正确方法吗?
  • 是的,没错。 Unicode 标准建议反对使用带有 UTF-8 的所谓 BOM(实际上并非如此)。
  • @tchrist:它建议在处理除仅 ASCII 字符之外的软件和协议时不要使用 BOM。如果 OP 知道他正在使用的 Windows 软件将使用 BOM 来检测文件实际上是用 UTF-8 编码的(我们不关心它不是 BOM 的事实,我们关心的是 事实上它可以让一些软件检测到编码是UTF-8)。另请注意,如果您有一个 UTF-8 的 BOM 并且某些软件出现故障,那么这些软件就会损坏,因为 UTF-8 开头的 BOM 是完全有效的。
  • 为了 BOM 讨论的完整性。 Excel 2003 严格要求 UTF-8 编码的 CSV 文件中的 BOM。否则多字节字符是不可读的。

标签: java character-encoding oracle10g byte-order-mark


【解决方案1】:

要以 UTF-8 编写 BOM,您需要 PrintStream.print(),而不是 PrintStream.write()

另外,如果你想在 csv 文件中包含 BOM,我想你需要在 putNextEntry() 之后打印 BOM。

【讨论】:

  • 难道不是所有的 PrintStreams 都存在根本缺陷,因为它们丢弃了流上可能发生的所有错误,包括 I/O 错误、完整的文件系统、网络中断和编码不匹配?如果这不是真的,请告诉我如何使它们可靠(因为我想使用它们)?但如果这是真的,您能否解释一下何时适合使用抑制正确性问题的输出方法?这是一个严肃的问题,因为我不明白为什么将其设置为如此危险。感谢您提供任何见解。
  • @tchrist - PrintStreams 确实会抑制错误。但是...... 1)它们并没有完全丢弃 - 您可以检查是否发生错误。 2) 在某些情况下,您不需要了解错误。一个无可争辩的情况是,当您将字符发送到正在写入内存缓冲区的流时。
  • @tchrist 我猜,这都是使用检查异常引起的。通常,您只需抛出任何错误并感到高兴。您可以通过包装每个调用并添加checkError 并有条件地抛出来使现有的PrintStream“安全”。但是有关异常的信息会丢失。所以是的,PrintStream 是一个无望的废话。
【解决方案2】:

PrintStream#print

我认为out.write('\ufeff');实际上应该是out.print('\ufeff');,调用java.io.PrintStream#print方法。

根据the javadocwrite(int) 方法实际上写入了一个字节......没有任何字符编码。所以out.write('\ufeff'); 写入字节0xff。相比之下,print(char) 方法使用流的编码将字符编码为一个或字节,然后写入这些字节。

section 23.8 of the Unicode 9 规范中所述,UTF-8 的 BOM 为 EF BB BF。该序列是您在'\ufeff' 上使用 UTF-8 编码时得到的。见:Why UTF-8 BOM bytes efbbbf can be replaced by \ufeff?

【讨论】:

  • 在 Java 中进行编码输出的唯一安全方法不是使用构造函数中很少见的OutputStreamWriter(OutputStream out, CharsetEncoder enc) for,这是四个中唯一一个带有显式 CharsetEncoder 参数的方法,并且从不使用您在这里推荐的PrintStream
  • @tchrist - 1) 没有。2) 我没有推荐 PrintStream。我只是说如何使用他已经在使用的 PrintStream 执行 OP 要求执行的操作。 3) 在这种情况下,PrintStream 应该是安全的,因为它后面有其他操作,这些操作将导致写入底层流(套接字)并在之前的 PrintStream 写入静默失败时抛出异常。
【解决方案3】:
BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(...), StandardCharsets.UTF_8));
out.write('\ufeff');
out.write(...);

这会正确地将 0xEF 0xBB 0xBF 写入文件,这是 BOM 的 UTF-8 表示形式。

【讨论】:

  • 此代码对默认平台编码敏感。在 Windows 上,我最终将 0x3F 写入文件。获取 BufferedWriter 的正确方法是:BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(the File), StandardCharsets.UTF_8))
【解决方案4】:

就我而言,它适用于代码:

PrintWriter out = new PrintWriter(new File(filePath), "UTF-8");
out.write(csvContent);
out.flush();
out.close();

【讨论】:

    【解决方案5】:

    以防万一人们使用PrintStreams,你需要做一些不同的事情。虽然 Writer 可以将单个字节转换为 3 个字节,但 PrintStream 需要单独使用 UTF-8 BOM 的所有 3 个字节:

        // Print utf-8 BOM
        PrintStream out = System.out;
        out.write('\ufeef'); // emits 0xef
        out.write('\ufebb'); // emits 0xbb
        out.write('\ufebf'); // emits 0xbf
    

    或者,您可以直接使用十六进制值:

        PrintStream out = System.out;
        out.write(0xef); // emits 0xef
        out.write(0xbb); // emits 0xbb
        out.write(0xbf); // emits 0xbf
    

    【讨论】:

      【解决方案6】:

      你为第一个 CSV 字符串添加这个

      String CSV = "";
      byte[] BOM = {(byte) 0xEF,(byte) 0xBB,(byte) 0xBF};
      CSV = new String(BOM) + CSV;
      

      这项工作适合我。

      【讨论】:

        【解决方案7】:

        这是在任何文件上附加 BOM 标头的简单方法:

        private static void appendBOM(File file) throws Exception {
            File bomFile = new File(file + ".bom");
            try (FileOutputStream output = new FileOutputStream(bomFile, true)) {
                byte[] bytes = FileUtils.readFileToByteArray(file);
                output.write('\ufeef'); // emits 0xef
                output.write('\ufebb'); // emits 0xbb
                output.write('\ufebf'); // emits 0xbf
                output.write(bytes);
                output.flush();
            }
            
            file.delete();
            bomFile.renameTo(file);
        }
        

        【讨论】:

          【解决方案8】:

          如果您只想修改同一个文件(没有新文件并删除旧文件,因为我遇到了问题)

          private void addBOM(File fileInput) throws IOException {
              try (RandomAccessFile file = new RandomAccessFile(fileInput, "rws")) {
                  byte[] text = new byte[(int) file.length()];
                  file.readFully(text);
                  file.seek(0);
                  byte[] bom = { (byte) 0xEF, (byte) 0xBB, (byte) 0xBF };
                  file.write(bom);
                  file.write(text);
              }
          }
          

          【讨论】:

            猜你喜欢
            • 2020-07-07
            • 2011-03-08
            • 1970-01-01
            • 2011-02-04
            • 1970-01-01
            • 2013-07-26
            • 1970-01-01
            • 2017-05-08
            相关资源
            最近更新 更多