处理大型 TIFF 文件和内存分配

Processing large TIFF files and memory allocation

我一直在开发一个应用程序,该应用程序将可能非常大的 TIFF 文件拆分为多个较小的文件。为此,它需要遍历所有页面(BufferedImage 对象)并执行一些操作以确定是应在此处启动新文件还是此特定页面是已创建文件的一部分。

显然我无法将整个文件加载到内存中 - 这就是为什么我只使用 ImageIO 读取其中一页的原因。我用以下方法创建了一个实用程序 class:

public static BufferedImage getSinglePageFromTiffFile(File file, int pageIndex) throws IOException {
    ImageInputStream is = ImageIO.createImageInputStream(file);
    ImageReader reader;
    try {
        reader = ImageIO.getImageReaders(is).next();
        reader.setInput(is);
        return reader.read(pageIndex);
    } finally {
        if(is != null) is.close();
    }
}

public static int getNumPages(File file) throws IOException {
    ImageInputStream is = ImageIO.createImageInputStream(file);
    ImageReader reader;
    try {
        reader = ImageIO.getImageReaders(is).next();
        reader.setInput(is);
        return reader.getNumImages(true);
    } finally {
        if(is != null) is.close();
    }
}

要将页面写入文件,我使用 ImageWriter class,如下所示:

int pagesQty = ImageUtils.getNumPages(documentToSplit);
    int currentPageIndex = 0;

    final ImageWriter writer = ImageIO.getImageWritersByFormatName(resultsExtension).next();
    final ImageWriteParam writeParams = writer.getDefaultWriteParam();
    writeParams.setCompressionMode(ImageWriteParam.MODE_COPY_FROM_METADATA);

    BufferedImage page = ImageUtils.getSinglePageFromTiffFile(file, currentPageIndex);

    while(currentPageIndex < pagesQty) {
        OutputStream outStream = null;
        ImageOutputStream imgOutStream = null;

        final File newDocFile = new File(pathName);

        try {
            outStream = new FileOutputStream(newDocFile);
            imgOutStream = ImageIO.createImageOutputStream(outStream);

            writer.setOutput(imgOutStream);
            writer.prepareWriteSequence(null);

            writer.writeToSequence(new IIOImage(page, null, null), writeParams);
            currentPageIndex++;

            while(currentPageIndex < pagesQty) {
                page = ImageUtils.getSinglePageFromTiffFile(documentToSplit, currentPageIndex);

                if(NEWPAGE) {
                    writer.endWriteSequence();
                    break;
                }

                writer.writeToSequence(new IIOImage(page, null, null), writeParams);
            }

        } finally {
            if(imgOutStream != null) imgOutStream.close();
            if(outStream != null) outStream.close();
        }
    }
}

我对这种方法的保留适用于内存使用。在处理文件时,最多分配了 2GB 的内存。平均约 1 - 1.5GB。有没有办法在内存使用方面更有效地执行这些操作?

通过将 TIFF 页面读取为 BufferedImages,您实际上解压缩了存储的图像,这可能需要大量内存,具体取决于图像的大小:每个像素将占用 3 (RGB) 或 4 (ARGB)字节,因此 10000 x 10000 像素的图像将占用大约 300 或 400 MB。

根据分配给您的 Java 进程的内存量,以及垃圾收集何时启动,您的进程可能确实积累了大量已用内存。

由于主要的内存消耗可能来自于解压后的图片(BufferedImage),减少内存使用的最有效方法是不要解压单张图片来提取它们。我不知道如何用普通 Java 来做到这一点,但有第三方库可以做到这一点。其中之一是 iCafe,它声称:

Split multipage TIFF image into individual TIFF images without decompression the images

我将此库用于其他图像格式(例如创建动画 GIF),但尚未将其用于 TIFF,但我认为绝对值得一试。在它的 Wiki-Page 上,它提供了以下片段来拆分多页 TIFF:

import com.icafe4j.io.RandomAccessInputStream;
import com.icafe4j.io.FileCacheRandomAccessInputStream;
import com.icafe4j.util.FileUtils;

public class TestTIFFTweaker {

    public static void main(String[] args) throws Exception {
        FileOutputStream fin = new FileInputStream(args[0]);
        RandomAccessInputStream rin = new FileCacheRandomAccessInputStream(fin);
        TIFFTweaker.splitPages(rin, FileUtils.getNameWithoutExtension(new File(args[0])));
        rin.close();
        fin.close(); // Need to close the underlying stream explicitly!!!
    }
}