在 Python3 中重新创建 JS 按位整数处理答案

【问题标题】：Recreating JS bitwise integer handling in Python3在 Python3 中重新创建 JS 按位整数处理
【发布时间】：2019-07-30 20:20:37
【问题描述】：

我需要将哈希函数从 JavaScript 转换为 Python。

函数如下：

function getIndex(string) {
        var length = 27;
        string = string.toLowerCase();
        var hash = 0;
        for (var i = 0; i < string.length; i++) {
                hash = string.charCodeAt(i) + (hash << 6) + (hash << 16) - hash;
        }
        var index = Math.abs(hash % length);
        return index;
}

console.log(getIndex(window.prompt("Enter a string to hash")));

此功能是 Objectively Correct™。它本身就是完美。我无法改变它，我只需要重新创建它。无论它输出什么，我的 Python 脚本也必须输出。

但是 - 我遇到了几个问题，我认为这与两种语言处理有符号整数的方式有关。

JS 位运算符将其操作数视为 32 位序列。然而，Python 没有位限制的概念，只是像一个绝对的疯子一样继续前进。我认为这是两种语言之间的一个相关区别。

我可以通过使用hash & 0xFFFFFFFF 将hash 屏蔽为32 位来限制Python 中hash 的长度。

如果0x7FFFFFFF 高于0x7FFFFFFF，我也可以用hash = hash ^ 0xFFFFFFFF（或hash = ~hash - 他们似乎都做同样的事情）来否定hash。我相信这会模拟负数。

我使用名为t 的函数将这两个限制应用于哈希。

到目前为止，这是我的 Python 代码：

def nickColor(string):
    length = 27

    def t(x):
        x = x & 0xFFFFFFFF
        if x > 0x7FFFFFFF:
            x = x ^ 0xFFFFFFFF
        return x

    string = string.lower()
    hash = t(0)
    for letter in string:
        hash = t(hash)
        hash = t(t(ord(letter)) + t(hash << 6) + t(hash << 16) - t(hash))
    index = hash % length
    return index

它似乎一直有效，直到哈希需要变为负数，此时两个脚本出现分歧。这通常发生在字符串中大约 4 个字母。

我假设我的问题在于在 Python 中重新创建 JS 负数。我该如何告别这个问题？

【问题讨论】：

JavaScript 中的所有数字都是 64 位（双精度）浮点数，但 bitwise operators 将它们的操作数视为 32 位序列。
@Andreas - 谢谢你的信息，我不知道。
这些字符串能得到多长时间？
x ^ 0xFFFFFFFF 不会否定该值，而是将其反转。差值是 1 个错误。

标签： python-3.x hash integer binary-operators

【解决方案1】：

这是一个有效的翻译：

def nickColor(string):
    length = 27

    def t(x):
        x &= 0xFFFF_FFFF
        if x > 0x7FFF_FFFF:
            x -= 0x1_0000_0000
        return float(x)

    bytes = string.lower().encode('utf-16-le')
    hash = 0.0
    for i in range(0, len(bytes), 2):
        char_code = bytes[i] + 256*bytes[i+1]
        hash = char_code + t(int(hash) << 6) + t(int(hash) << 16) - hash
    return int(hash % length if hash >= 0 else abs(hash % length - length))

关键是，只有移位（<<）被计算为 32 位整数运算，在输入加法和减法之前，它们的结果是converted back to double。我不熟悉两种语言中双精度浮点表示的规则，但可以肯定的是，在所有个人计算设备和 Web 服务器上，这两种语言都是相同的，即double-precision IEEE 754。对于非常长的字符串（数千个字符），哈希可能会丢失一些精度，这当然会影响最终结果，但在 JS 中和在 Python 中的方式相同（不是 Objectively Correct™ 函数的作者想要的，而是它就是这样儿的…）。最后一行更正了 JavaScript 和 Python 中负操作数的 % 运算符的不同定义。

此外（感谢 Mark Ransom 提醒我这一点），要完全模拟 JavaScript，还需要考虑其编码，即 UTF-16，但将 surrogate pairs 处理为由 2 个字符组成。将字符串编码为utf-16-le，您可以确保每个 16 位“字”中的第一个字节是最不重要的字节，此外，如果您使用 utf-16 tout，您不会得到 BOM法庭（谢谢 Martijn Pieters）。

【讨论】：

您可能需要字符串的encode 100% 准确。我对 Javascript 的了解还不够，无法确定。
您的代码假定编码为 UTF-16 以小端顺序为您提供数据，但这实际上取决于平台。它可能在 Windows 上工作，但在其他平台上你可能会得到相反的顺序！您需要显式编码为utf-16-le；这可确保您始终在所有平台上获得 Little Endian 字节顺序数据，并让您避免跳过前两个字节
接下来，如果您将 UTF-16 字节包装在 memoryview object 中，您可以将 cast the data 放入一个可迭代的无符号短裤，从而无需一次占用两个字节：for char_code in memoryview(utf16bytes).cast('<H'):
您可以坚持使用 UTF-16 编码（使用 BOM），然后使用 '@H' 进行本机字节顺序遍历，这在 Big Endian 是本机的平台上会更快字节顺序。我很确定 UTF-16 编码器坚持原生顺序偏好。然后从内存视图中切掉 BOM。演示：ideone.com/JlxUOQ
小代码审查 cmets：我会将 int() 和 float() 转换都移动到位移函数中，您可以使用模运算来模拟溢出：(intval + 0x8000_0000) % 0x1_0000_0000 - 0x8000_0000:@987654343 @.