【发布时间】:2018-11-12 22:23:03
【问题描述】:
我正在尝试从 Java 文本文件中读取 Unicode 代码点。 InputStreamReader 类通过int 返回流的内容int,我希望它会做我想做的事,但它不会组成代理对。
我的测试程序:
import java.io.*;
import java.nio.charset.*;
class TestChars {
public static void main(String args[]) {
InputStreamReader reader =
new InputStreamReader(System.in, StandardCharsets.UTF_8);
try {
System.out.print("> ");
int code = reader.read();
while (code != -1) {
String s =
String.format("Code %x is `%s', %s.",
code,
Character.getName(code),
new String(Character.toChars(code)));
System.out.println(s);
code = reader.read();
}
} catch (Exception e) {
}
}
}
这表现如下:
$ java TestChars
> keyboard ⌨. pizza ????
Code 6b is `LATIN SMALL LETTER K', k.
Code 65 is `LATIN SMALL LETTER E', e.
Code 79 is `LATIN SMALL LETTER Y', y.
Code 62 is `LATIN SMALL LETTER B', b.
Code 6f is `LATIN SMALL LETTER O', o.
Code 61 is `LATIN SMALL LETTER A', a.
Code 72 is `LATIN SMALL LETTER R', r.
Code 64 is `LATIN SMALL LETTER D', d.
Code 20 is `SPACE', .
Code 2328 is `KEYBOARD', ⌨.
Code 2e is `FULL STOP', ..
Code 20 is `SPACE', .
Code 70 is `LATIN SMALL LETTER P', p.
Code 69 is `LATIN SMALL LETTER I', i.
Code 7a is `LATIN SMALL LETTER Z', z.
Code 7a is `LATIN SMALL LETTER Z', z.
Code 61 is `LATIN SMALL LETTER A', a.
Code 20 is `SPACE', .
Code d83c is `HIGH SURROGATES D83C', ?.
Code df55 is `LOW SURROGATES DF55', ?.
Code a is `LINE FEED (LF)',
.
我的问题是组成比萨表情符号的代理对是分开阅读的。我想将符号读入单个 int 并完成它。
问题: 是否有一个 reader(-like) 类可以在阅读时自动将代理对组合成字符? (并且,如果输入格式错误,大概会引发异常。)
我知道我可以自己组合这些对,但我宁愿避免重新发明轮子。
【问题讨论】:
-
read()返回的int值是 UTF-16char值,而不是 Unicode codepoint。它是int类型的唯一原因是它也可以返回-1。代码正在做它应该做的事情,即返回 UTF-16 代理对。 -
我知道这个类没有做我想做的事,这就是为什么我的问题是是否有另一个标准类做我想做的事。