【发布时间】:2014-06-02 17:00:16
【问题描述】:
假设我有一堆 UTF-8 格式的文件,我用 unicode 格式发送到外部 API。 API 对每个 unicode 字符串进行操作,并返回一个包含 (character_offset, substr) 元组的列表。
我需要的输出是每个找到的子字符串的开始和结束字节偏移量。如果幸运的话,输入文本只包含 ASCII 字符(使字符偏移量和字节偏移量相同),但情况并非总是如此。如何找到已知开始字符偏移量和子字符串的开始和结束字节偏移量?
我自己已经回答了这个问题,但期待其他更强大、更高效和/或更具可读性的解决方案。
【问题讨论】:
标签: python offset unicode-string