【发布时间】:2020-03-05 07:36:04
【问题描述】:
我正在学习 Rust,但令我惊讶的是,Rust 只能区分 UTF-8 字节序列,但不能区分实际的字形簇(即变音符号被视为不同的“字符”)。
例如,Rust 可以将输入文本转换为这样的向量(在 "नमस्ते".chars() 的帮助下):
['न', 'म', 'स', '्', 'त', 'े'] // 4 and 6 are diacritics and shouldn't be distinct items
但是我怎样才能得到这样的向量呢?
["न", "म", "स्", "ते"]
【问题讨论】: