这是一个从所有允许的字符串中均匀采样的简单方法。统一采样使冲突尽可能少,而不是保留以前的键的日志或使用基于计数器的哈希(见下文)。
import random
digits = '0123456789'
letters = 'abcdef'
all_chars = digits + letters
length = 6
while True:
val = ''.join(random.choice(all_chars) for i in range(length))
# The following line might be faster if you only want hex digits.
# It makes a long int with 24 random bits, converts it to hex,
# drops '0x' from the start and 'L' from the end, then pads
# with zeros up to six places if needed
# val = hex(random.getrandbits(4*length))[2:-1].zfill(length)
# test whether it contains at least one letter
if not val.isdigit():
break
# now val is a suitable string
print val
# 5d1d81
或者,这里有一种更复杂的方法,它也可以均匀采样,但不使用任何开放式循环:
import random, bisect
digits = '0123456789'
letters = 'abcdef'
all_chars = digits + letters
length = 6
# find how many valid strings there are with their first letter in position i
pos_weights = [10**i * 6 * 16**(length-1-i) for i in range(length)]
pos_c_weights = [sum(pos_weights[0:i+1]) for i in range(length)]
# choose a random slot among all the allowed strings
r = random.randint(0, pos_c_weights[-1])
# find the position for the first letter in the string
first_letter = bisect.bisect_left(pos_c_weights, r)
# generate a random string matching this pattern
val = ''.join(
[random.choice(digits) for i in range(first_letter)]
+ [random.choice(letters)]
+ [random.choice(all_chars) for i in range(first_letter + 1, length)]
)
# now val is a suitable string
print val
# 4a99f0
最后,这是一个更复杂的方法,它使用随机数 r 直接索引到允许值的整个范围,即,这会将 0-15,777,216 范围内的任何数字转换为合适的十六进制字符串。这可以用来完全避免冲突(下面将详细讨论)。
import random, bisect
digits = '0123456789'
letters = 'abcdef'
all_chars = digits + letters
length = 6
# find how many valid strings there are with their first letter in position i
pos_weights = [10**i * 6 * 16**(length-1-i) for i in range(length)]
pos_c_weights = [sum(pos_weights[0:i+1]) for i in range(length + 1)]
# choose a random slot among all the allowed strings
r = random.randint(0, pos_c_weights[-1])
# find the position for the first letter in the string
first_letter = bisect.bisect_left(pos_c_weights, r) - 1
# choose the corresponding string from among all that fit this pattern
offset = r - pos_c_weights[first_letter]
val = ''
# convert the offset to a collection of indexes within the allowed strings
# the space of allowed strings has dimensions
# 10 x 10 x ... (for digits) x 6 (for first letter) x 16 x 16 x ... (for later chars)
# so we can index across it by dividing into appropriate-sized slices
for i in range(length):
if i < first_letter:
offset, v = divmod(offset, 10)
val += digits[v]
elif i == first_letter:
offset, v = divmod(offset, 6)
val += letters[v]
else:
offset, v = divmod(offset, 16)
val += all_chars[v]
# now val is a suitable string
print val
# eb3493
均匀抽样
我在上面提到过,这对所有允许的字符串统一进行采样。这里的其他一些答案完全随机选择 5 个字符,然后在随机位置强制将一个字母放入字符串中。这种方法产生的包含多个字母的字符串比随机得到的要多。例如,如果为前 5 个插槽选择了字母,则该方法总是产生一个 6 个字母的字符串;然而,在这种情况下,第六个选择实际上应该只有 6/16 的机会是一个字母。只有当前 5 个插槽是数字时,才能通过将字母强制放入第六个插槽来解决这些方法。在这种情况下,所有 5 位字符串将自动转换为 5 位加 1 个字母,从而提供过多的 5 位字符串。使用统一采样,如果前 5 个字符是数字,则应该有 10/16 的机会完全拒绝字符串。
以下是一些说明这些抽样问题的示例。假设您有一个更简单的问题:您想要一个由两个二进制数字组成的字符串,并规定其中至少一个必须是 1。如果您以相等的概率产生 01、10 或 11,那么冲突将是最罕见的。您可以通过为每个插槽选择随机位,然后丢弃 00 来做到这一点(类似于我上面的方法)。
但假设您改为遵循以下规则:做出两个随机二元选择。第一个选项将按原样在字符串中使用。第二个选项将确定插入额外 1 的位置。这类似于此处其他答案使用的方法。那么您将有以下可能的结果,其中前两列代表两个二元选择:
0 0 -> 10
0 1 -> 01
1 0 -> 11
1 1 -> 11
这种方法有 0.5 的机会产生 11,或 0.25 产生 01 或 10,因此会增加 11 个结果之间发生冲突的风险。
您可以尝试如下改进:做出三个随机二元选择。第一个选项将按原样在字符串中使用。如果第一个选项是 0,则第二个选项将转换为 1;否则它将按原样添加到字符串中。第三个选项将确定插入第二个选项的位置。那么你有以下可能的结果:
0 0 0 -> 10 (second choice converted to 1)
0 0 1 -> 01 (second choice converted to 1)
0 1 0 -> 10
0 1 1 -> 01
1 0 0 -> 10
1 0 1 -> 01
1 1 0 -> 11
1 1 1 -> 11
这为 01 或 10 提供了 0.375 的机会,为 11 提供了 0.25 的机会。因此这将略微增加重复 10 或 01 值之间发生冲突的风险。
减少冲突
如果您愿意使用所有字母而不是仅使用“a”到“f”(十六进制数字),您可以更改 letters 的定义,如 cmets 中所述。这将提供更多样化的字符串和更少的冲突机会。如果您生成了 1,000 个允许所有大写和小写字母的字符串,那么您只有大约 0.0009% 的机会生成任何重复项,而只有 3% 的机会生成十六进制字符串。 (这也将几乎消除循环中的双重通过。)
如果您真的想避免字符串之间的冲突,您可以将之前生成的所有值存储在 set 中,并在退出循环之前对其进行检查。如果您要生成少于约 500 万个密钥,这将是一件好事。除此之外,您还需要相当多的 RAM 来保存旧密钥,并且可能需要在循环中运行几次才能找到未使用的密钥。
如果您需要生成更多的密钥,您可以加密一个计数器,如Generating non-repeating random numbers in Python 所述。计数器及其加密版本都是 0 到 15,777,216 范围内的整数。计数器将从 0 开始计数,加密版本看起来像一个随机数。然后,您将使用上面的第三个代码示例将加密版本转换为十六进制。如果这样做,您应该在开始时生成一个随机加密密钥,并在每次计数器滚动超过您的最大值时更改加密密钥,以避免再次产生相同的序列。