【发布时间】:2014-07-09 10:39:02
【问题描述】:
我正在尝试编写一个脚本,该脚本通过创建随机 utf-8 编码字符串然后将其解码为 unicode 来生成随机 unicode。它适用于单个字节,但有两个字节则失败。
例如,如果我在 python shell 中运行以下命令:
>>> a = str()
>>> a += chr(0xc0) + chr(0xaf)
>>> print a.decode('utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc0 in position 0: invalid start byte
根据 utf-8 方案https://en.wikipedia.org/wiki/UTF-8#Description,字节序列0xc0 0xaf 应该是有效的,因为0xc0 以110 开头,0xaf 以10 开头。
这是我的 python 脚本:
def unicode(self):
'''returns a random (astral) utf encoded byte string'''
num_bytes = random.randint(1,4)
if num_bytes == 1:
return self.gen_utf8(num_bytes, 0x00, 0x7F)
elif num_bytes == 2:
return self.gen_utf8(num_bytes, 0xC0, 0xDF)
elif num_bytes == 3:
return self.gen_utf8(num_bytes, 0xE0, 0xEF)
elif num_bytes == 4:
return self.gen_utf8(num_bytes, 0xF0, 0xF7)
def gen_utf8(self, num_bytes, start_val, end_val):
byte_str = list()
byte_str.append(random.randrange(start_val, end_val)) # start byte
for i in range(0,num_bytes-1):
byte_str.append(random.randrange(0x80,0xBF)) # trailing bytes
a = str()
sum = int()
for b in byte_str:
a += chr(b)
ret = a.decode('utf-8')
return ret
if __name__ == "__main__":
g = GenFuzz()
print g.gen_utf8(2,0xC0,0xDF)
【问题讨论】:
-
请注意,您的函数可能会随机尝试生成 U+D800 到 U+DFFF 范围内的代码点,这也是无效的。
标签: python unicode encoding utf-8