【发布时间】:2019-12-12 05:02:38
【问题描述】:
给定一个 Java 字符串和该字符串的偏移量,计算同一位置到 UTF8 字符串的偏移量的正确方法是什么?
更具体地说,给定 Java 字符串中有效代码点的偏移量,如何将该偏移量映射到 Python 3 字符串中该代码点的新偏移量?反之亦然?
是否有任何库方法已经提供了 Java 字符串偏移量和 Python 3 字符串偏移量之间的映射?
【问题讨论】:
-
一种天真的方法是获取该偏移量之前的子字符串,将其转换为 UTF-8,然后计算字节数。
-
Joshm 要求的是代码点索引,而不是字节索引。
标签: java python-3.x unicode utf-8 utf-16