【发布时间】:2016-03-09 23:56:23
【问题描述】:
我正在尝试使用 libunibreak (https://github.com/adah1972/libunibreak) 来标记某些给定 unicode 文本中可能出现的换行符。
Libunibreak 在某些文本中为每个代码单元返回四个可能的选项:
LINEBREAK_MUSTBREAK
LINEBREAK_ALLOWBREAK
LINEBREAK_NOBREAK
LINEBREAK_INSIDEACHAR
希望这些是不言自明的。我希望 MUSTBREAK 对应于换行符,如 LF。然而,对于任何给定的文本,Libunibreak 总是表明最后一个字符是 MUSTBREAK
例如,对于字符串“abc”,输出将是 [NOBREAK,NOBREAK,MUSTBREAK]。对于“abc\n”,输出将是 [NOBREAK,NOBREAK,NOBREAK,MUSTBREAK]。我在绘制文本时使用 MUSTBREAK 属性开始新行,因此第一种情况(“abc”)会创建一个不应存在的额外换行符。
这是 Unicode 指定的行为还是我正在使用的库实现的怪癖?
【问题讨论】:
标签: unicode line-breaks