加载文件 MD5 的最快方法是什么？答案

【问题标题】：What is the fastest way to load the MD5 of an file?加载文件 MD5 的最快方法是什么？
【发布时间】：2018-01-13 12:13:34
【问题描述】：

我想加载可能不同文件的 MD5。我正在关注answer 这样做，但主要问题是加载文件的 MD5 所需的时间（可能有数百个）很多。

有什么方法可以用来查找文件的MD5而不用花费太多时间。

注意 - 文件的大小可能很大（可能高达 300MB）。

这是我正在使用的代码 -

import java.io.*;
import java.security.MessageDigest;

public class MD5Checksum {

   public static byte[] createChecksum(String filename) throws Exception {
       InputStream fis =  new FileInputStream(filename);

       byte[] buffer = new byte[1024];
       MessageDigest complete = MessageDigest.getInstance("MD5");
       int numRead;

       do {
           numRead = fis.read(buffer);
           if (numRead > 0) {
               complete.update(buffer, 0, numRead);
           }
       } while (numRead != -1);

       fis.close();
       return complete.digest();
   }

   // see this How-to for a faster way to convert
   // a byte array to a HEX string
   public static String getMD5Checksum(String filename) throws Exception {
       byte[] b = createChecksum(filename);
       String result = "";

       for (int i=0; i < b.length; i++) {
           result += Integer.toString( ( b[i] & 0xff ) + 0x100, 16).substring( 1 );
       }
       return result;
   }

   public static void main(String args[]) {
       try {
           System.out.println(getMD5Checksum("apache-tomcat-5.5.17.exe"));
           // output :
           //  0bb2827c5eacf570b6064e24e0e6653b
           // ref :
           //  http://www.apache.org/dist/
           //          tomcat/tomcat-5/v5.5.17/bin
           //              /apache-tomcat-5.5.17.exe.MD5
           //  0bb2827c5eacf570b6064e24e0e6653b *apache-tomcat-5.5.17.exe
       }
       catch (Exception e) {
           e.printStackTrace();
       }
   }
}

【问题讨论】：

尝试更大的缓冲区：例如64 * 1024
@pskink 尝试缓冲到32764，但仍然消耗了很多平局。进一步增加缓冲区大小有什么害处吗？
在十六进制转换中附加字符串将花费大量时间。使用`BigInteger.toHexString()`。
@EJP 发生碰撞的几率是多少？

标签： java android md5 md5sum md5-file

【解决方案1】：

您不能使用哈希来确定内容的任何相似性。
例如，生成 hellostackoverflow1 和 hellostackoverflow2 的 MD5 会计算两个哈希值，其中字符串表示的所有字符都不匹配（7c35[...]85fa vs b283[...]3d19）。这是因为哈希是根据文件的二进制数据计算的，因此同一事物的两种不同格式 - 例如相同文本的 .txt 和 .docx - 具有不同的哈希值。

但如前所述，使用本机代码（即 NDK）可能会实现一些速度。此外，如果您仍想比较文件是否完全匹配，请先比较大小（以字节为单位），然后使用具有足够速度和低冲突风险的散列算法。如前所述，CRC32 很好。

【讨论】：

【解决方案2】：

哈希/CRC 计算需要一些时间，因为文件必须被完全读取。

您提供的createChecksum 代码几乎是最佳的。唯一可以调整的部分是读取缓冲区大小（我会使用 2048 字节或更大的缓冲区大小）。但是，这可能会使您的速度最多提高 1-2%。

如果这仍然太慢，剩下的唯一选择是在 C/C++ 中实现散列并将其用作本机方法。除此之外，你无能为力。

【讨论】：

非常感谢您的回答。由于我对 C/C++ 不太熟悉，您能否提供一个有关如何执行此操作的示例。如果crc32校验和检查两个文件是否相同也可以吗？
要检查两个文件是否相同，您可以使用 crc32。顺便问一下，你在计算哈希和之前检查文件大小是否匹配？
@Rahulrr2602：使用 md5 或 crc32 取决于您。这取决于您的要求，发生碰撞的可能性有多大以及后果是什么。有关详细信息，请参阅this question。如果您没有 C 经验，则呈现本机实现超出范围。可能有一个现有的 Android 库可用，但我不知道。
@Ch4t4r 谢谢，但我没有在找到 MD5 之前检查文件的大小。原因是我想根据内容而不是大小来检查文件的相似性。两个不同的文件是否有可能具有相同的内容但具有不同的格式并因此具有不同的大小？
您不能使用哈希来确定内容的任何相似性。例如，生成 hellostackoverflow1 和 hellostackoverflow2 的 MD5 会计算两个哈希值，其中没有字符串表示的字符匹配（7c35[...]85fa vs b283[...]3d19）。那是因为哈希是根据文件的二进制数据计算的，因此同一事物的两种不同格式 - 例如.txt 和相同文本的 .docx - 具有不同的哈希值。