【问题标题】:Murmur3 hash different result between Python and Java implementationMurmur3 在 Python 和 Java 实现之间散列不同的结果
【发布时间】:2015-04-29 01:47:29
【问题描述】:

我有两个不同的程序希望分别在 Python 和 Java 中使用 Murmur3 对相同的字符串进行哈希处理。

Python 2.7.9 版:

mmh3.hash128('abc')

提供 79267961763742113019008347020647561319L。

Java 是 Guava 18.0:

HashCode hashCode = Hashing.murmur3_128().newHasher().putString("abc", StandardCharsets.UTF_8).hash();

给出字符串“6778ad3f3f3f96b4522dca264174a23b”,转换为 BigInterger 给出 137537073056680613988840834069010096699。

如何从两者获得相同的结果?

谢谢

【问题讨论】:

    标签: java python guava murmurhash


    【解决方案1】:

    以下是从两者获得相同结果的方法:

    byte[] mm3_le = Hashing.murmur3_128().hashString("abc", UTF_8).asBytes();
    byte[] mm3_be = Bytes.toArray(Lists.reverse(Bytes.asList(mm3_le)));
    assertEquals("79267961763742113019008347020647561319",
        new BigInteger(mm3_be).toString());
    

    哈希码的字节需要被视为小端,但BigInteger 将字节解释为大端。您可能使用new BigInteger(hex, 16) 创建BigInteger,但HashCode.toString() 的输出实际上是一系列十六进制数字对,它们以asBytes()(小端序)返回的相同顺序表示哈希字节. (您还可以反转这些十六进制对以获得一个十六进制数,当传递给new BigInteger(reversedHex, 16) 时会产生相同的结果。

    我认为toString() 的文档有点令人困惑,因为它指的是“大端”;它实际上并不意味着该方法的输出是表示解释为大端的字节的十六进制数。

    我们有一个开放的issue 用于将asBigInteger() 添加到HashCode

    【讨论】:

      【解决方案2】:

      如果有人对反向答案感兴趣,请将 python 输出转换为 Java 输出:

      import mmh3
      import string
      
      char_array = '0123456789abcdef'
      mumrmur = mmh3.hash_bytes('abc')
      
      result = [f'{string.hexdigits[(char >> 4) & 0xf]}{string.hexdigits[char & 0xf]}' for char in mumrmur]
      print(''.join(result))
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2021-12-25
        • 1970-01-01
        • 2012-12-14
        • 2016-04-18
        • 1970-01-01
        • 2016-07-17
        • 2014-01-26
        • 2011-03-13
        相关资源
        最近更新 更多