【问题标题】:Encoding variable-length utf8 byte array in Java在 Java 中编码可变长度 utf8 字节数组
【发布时间】:2017-03-17 06:53:41
【问题描述】:

实际上,我需要读取一个 utf8 格式的字符串,但它的字符使用 variable-length encoding 所以我在将它们编码为字符串时遇到问题,并且在打印时我得到了奇怪的字符,字符似乎是在韩语中,这是我使用但没有结果的代码:

public static String byteToUTF8(byte[] bytes) {
    try {
        return (new String(bytes, "UTF-8"));

    } catch (UnsupportedEncodingException e) {
        e.printStackTrace();
    }
    Charset UTF8_CHARSET = Charset.forName("UTF-8");
    return new String(bytes, UTF8_CHARSET);
}

我还使用了 UTF-16 并获得了更好的结果,但是它给了我奇怪的字符,根据上面提供的文档,我应该使用 utf8。

提前感谢您的帮助。

编辑:

Base64 值:S0QtOTI2IEdHMDA2AAAAAA==\n

【问题讨论】:

  • 只是想一想,另一端的文本也可能编码不正确。仅供参考,here 是 Java 支持的编码及其内部名称。
  • 我不明白您链接到的页面。该 XML 文档是您要解码的内容吗?
  • @SotiriosDelimanolis 这是蓝牙的文件,我正在尝试从 BLE 服务读取model number string,它的编码有问题。
  • 如果我以 64 进制解码 S0QtOTI2IEdHMDA2AAAAAA==,我得到 KD-926 GG006,我看不到任何韩文字符
  • 请注意,我相信您误解了文档,UTF-8 可变长度编码 因为根据字符来编码它会以1 编码为5 字节

标签: java encoding utf-8 bluetooth


【解决方案1】:

蓝牙名称显示问题:

如果你检查蓝牙适配器 setName(),你会得到那个

https://developer.android.com/reference/android/bluetooth/BluetoothAdapter.html#setName

使用 UTF-8 编码的有效蓝牙名称最长为 248 字节, 虽然很多远程设备只能显示前 40 个字符, 有些可能仅限于 20 个。

Android 支持的版本:

如果您检查链接https://stackoverflow.com/a/7989085/2293534,您将获得android支持的版本列表。

Supported and Non supported locales are given in the table:

-----------------------------------------------------------------------------------------------------
             | DEC Korean | Korean EUC | ISO-2022-KR | KSC5601/cp949 | UCS-2/UTF-16 | UCS-4 | UTF-8 |
-----------------------------------------------------------------------------------------------------
 DEC Korean  |      -     |      Y     |     N       |      Y        |        Y     |   Y   |   Y   |
-----------------------------------------------------------------------------------------------------
 Korean EUC  |      Y     |      -     |     Y       |      N        |        N     |   N   |   N   |
-----------------------------------------------------------------------------------------------------
 ISO-2022-KR |      N     |      Y     |     -       |      Y        |        N     |   N   |   N   |
-----------------------------------------------------------------------------------------------------
KSC5601/cp949|      Y     |      N     |     Y       |      -        |        Y     |   Y   |   Y   |
-----------------------------------------------------------------------------------------------------
 UCS-2/UTF-16|      Y     |      N     |     N       |      Y        |        -     |   Y   |   Y   |
-----------------------------------------------------------------------------------------------------
    UCS-4    |      Y     |      N     |     N       |      Y        |        Y     |   -   |   Y   |
-----------------------------------------------------------------------------------------------------
    UTF-8    |      Y     |      N     |     N       |      Y        |        Y     |   Y   |   -   |
-----------------------------------------------------------------------------------------------------

对于解决方案,

解决方案#1:

Michael 为转换提供了一个很好的例子。更多内容可以查看https://stackoverflow.com/a/40070761/2293534

当你调用 getBytes() 时,你得到的是字符串的原始字节 在系统的本机字符编码下编码(可能或 可能不是 UTF-8)。然后,您将这些字节视为 以 UTF-8 编码,它们可能不是。

更可靠的方法是将 ko_KR-euc 文件读入 Java 字符串。然后,使用 UTF-8 编码写出 Java 字符串。

InputStream in = ...
Reader reader = new InputStreamReader(in, "ko_KR-euc"); // you can use specific korean locale here
StringBuilder sb = new StringBuilder();
int read;
while ((read = reader.read()) != -1){
  sb.append((char)read);
}
reader.close();

String string = sb.toString();

OutputStream out = ...
Writer writer = new OutputStreamWriter(out, "UTF-8");
writer.write(string);
writer.close();

注意:当然,您应该使用正确的编码名称

解决方案#2:

使用StringUtils,你可以做到 https://stackoverflow.com/a/30170431/2293534

解决方案#3:

您可以使用 Apache Commons IO 进行转换。这里给出了一个很好的例子:http://www.utdallas.edu/~lmorenoc/research/icse2015/commons-io-2.4/examples/toString_49.html

1 String resource;
2 //getClass().getResourceAsStream(resource) -> the <code>InputStream</code> to read from
3 //"UTF-8" -> the encoding to use, null means platform default
4 IOUtils.toString(getClass().getResourceAsStream(resource),"UTF-8");

资源链接:

  1. Korean Codesets and Codeset Conversion
  2. Korean Localization
  3. Changing the Default Locale
  4. Byte Encodings and Strings

【讨论】:

  • 谢谢,我会检查并通知您,但解决方案不应针对特定区域。
【解决方案2】:

我建议您使用每个 Apache 库的 StringUtils。我相信这里记录了您的必要方法:

https://commons.apache.org/proper/commons-codec/apidocs/org/apache/commons/codec/binary/StringUtils.html

【讨论】:

  • 我以前见过这个工具,但由于库的开销,我忽略了它,但我会试一试,我会让你知道结果。请注意,源应该是 byte[],我想在编码为 UTF8 之前先将其转换为 Base64 或其他内容可能会破坏一切。
  • 那么你的字符串不是UTF-8
  • 应该是,至少根据文档,但在使用它为 BLE 设备供电的公司中可能存在问题。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-06-26
  • 2015-08-01
  • 2011-04-03
  • 1970-01-01
  • 2010-10-14
相关资源
最近更新 更多