加载文件 MD5 的最快方法是什么?

What is the fastest way to load the MD5 of an file?

我想加载多个不同文件的MD5。我按照这个 answer 来做,但主要问题是加载文件的 MD5(可能是数百个)所花费的时间很多。

有什么方法可以不花很多时间就可以找到文件的MD5。

注意-文件的大小可能很大(可能高达 300MB)。

这是我正在使用的代码 -

import java.io.*;
import java.security.MessageDigest;

public class MD5Checksum {

   public static byte[] createChecksum(String filename) throws Exception {
       InputStream fis =  new FileInputStream(filename);

       byte[] buffer = new byte[1024];
       MessageDigest complete = MessageDigest.getInstance("MD5");
       int numRead;

       do {
           numRead = fis.read(buffer);
           if (numRead > 0) {
               complete.update(buffer, 0, numRead);
           }
       } while (numRead != -1);

       fis.close();
       return complete.digest();
   }

   // see this How-to for a faster way to convert
   // a byte array to a HEX string
   public static String getMD5Checksum(String filename) throws Exception {
       byte[] b = createChecksum(filename);
       String result = "";

       for (int i=0; i < b.length; i++) {
           result += Integer.toString( ( b[i] & 0xff ) + 0x100, 16).substring( 1 );
       }
       return result;
   }

   public static void main(String args[]) {
       try {
           System.out.println(getMD5Checksum("apache-tomcat-5.5.17.exe"));
           // output :
           //  0bb2827c5eacf570b6064e24e0e6653b
           // ref :
           //  http://www.apache.org/dist/
           //          tomcat/tomcat-5/v5.5.17/bin
           //              /apache-tomcat-5.5.17.exe.MD5
           //  0bb2827c5eacf570b6064e24e0e6653b *apache-tomcat-5.5.17.exe
       }
       catch (Exception e) {
           e.printStackTrace();
       }
   }
}

Hash/CRC 计算需要一些时间,因为必须完整读取文件。

您提供的 createChecksum 代码几乎是最优的。唯一可以调整的部分是读取缓冲区大小(我会使用 2048 字节或更大的缓冲区大小)。然而,这最多可以使您的速度提高 1-2%。

如果这仍然太慢,剩下的唯一选择是在 C/C++ 中实现散列并将其用作本机方法。除此之外,您无能为力。

您不能使用哈希来确定内容的任何相似性。
例如,生成 helloWhosebug1 和 helloWhosebug2 的 MD5 会计算两个哈希值,其中 none 字符串表示的字符匹配(7c35[...]85fa vs b283[...]3d19)。那是因为哈希是根据文件的二进制数据计算的,因此是同一事物的两种不同格式 - 例如.txt 和同一文本的 .docx - 具有不同的哈希值。

但如前所述,使用本机代码(即 NDK)可能会提高一些速度。此外,如果您仍想比较文件的精确匹配,请先比较以字节为单位的大小,然后使用具有足够速度和低冲突风险的哈希算法。如前所述,CRC32 没问题。