【问题标题】:Reading file with bad encoding. CP1252 vs UTF-8读取编码错误的文件。 CP1252 与 UTF-8
【发布时间】:2013-10-22 01:18:27
【问题描述】:

我有字节数组,它放入 InputStreamReader 并对其进行一些操作。

Reader reader = new InputStreamReader(new ByteArrayInputStream(byteArr));

JVM 具有默认的 cp1252 编码,但我翻译为字节数组的文件具有 utf-8 编码。这个文件也有德语变音符号。当我将字节数组放入 InputStreamReader 时,java 会将变音符号解码为错误的符号。例如 ü 表示为 ü。我试图把 "UTF-8" 和 Charset.forName("UTF-8").newDecoder());到 InputStreamReader 构造函数,通过 new String(oldStr.getBytes("cp1252"), "UTF-8); 将字符串从读取器转换为具有新编码的字符串;但这没有帮助。在读取器变量的调试器中,我看到 StreamDecoder 参数,它具有“解码器”与 MS1252$Decoder 值。也许它解决了我的问题,但我不明白,我该如何解决它。

【问题讨论】:

    标签: java encoding utf-8 character-encoding nio


    【解决方案1】:

    尝试使用InputStreamReader(InputStream in, String charsetName)构造函数并自行设置字符集。

    Reader reader = new InputStreamReader(new ByteArrayInputStream(byteArr), "UTF-8");
    

    【讨论】:

    • 您似乎以错误的方式读取或操作数据。顺便说一句,cp1252 支持德语。你能显示读取文件和输出结果的代码吗?
    • 也许尝试像这样设置默认 JVM 编码stackoverflow.com/questions/361975/…
    • 可能 OpenCSV 损坏了文件。当我得到 Reader 时,我把它放在 OpenCSV 解析方法中。例如文件只有一个字 - Zurückziehung,但在输出我有 Zurückziehung
    • 使用 ANSI 编码我没有问题,但我需要使用 UTF-8。
    • 我认为这是您的问题的解决方案stackoverflow.com/questions/1695699/…
    【解决方案2】:

    我遇到了完全相同的错误,最后通过将其添加到 JVM 启动选项中解决了这个问题:

    -Dfile.encoding=UTF8
    

    【讨论】:

      猜你喜欢
      • 2021-06-14
      • 1970-01-01
      • 1970-01-01
      • 2017-07-14
      • 2016-08-14
      • 2013-07-04
      • 2014-02-14
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多