使用 PDFBox 将图像转换为 byte[]

Question

我正在使用 PDFBox 2.0。在解析 PDF 文档时，我还想获取第一页作为图像并将其存储到 hbase 以便在搜索结果中使用它（我将创建一个搜索列表页面，如 amazon.com 的搜索页面）。

HBase 接受 byte[] 变量来存储（索引）一个值。我需要将图像转换为 byte[]，然后将其存储到 HBase。我已经实现了图像渲染，但如何将其转换为 byte[]？

        PDDocument document = PDDocument.load(file, "");
        BufferedImage image = null;
        try {
            PDFRenderer pdfRenderer = new PDFRenderer(document);
            if (document.isEncrypted()) {
                try {
                    System.out.println("Trying to decrypt...);
                    document.setAllSecurityToBeRemoved(true);
                    System.out.println("The file has been decrypted in .");
                }
                catch (Exception e) {
                    throw new Exception("cannot be decrypted. ", e);
                }
            }
            PDPage firstPage = (PDPage) document.getDocumentCatalog().getPages().get(0);
            pdfRenderer.renderImageWithDPI(0, 300, ImageType.RGB);
               // 0 means first page.

            image = pdfRenderer.renderImageWithDPI(0, 300, ImageType.RGB);                  
            document.close();

    } catch (Exception e) {
            e.printStackTrace();
    }

如果我在 document.close(); 的正上方写 ImageIOUtil.writeImage(image , fileName+".jpg" ,300);，程序会在项目路径中创建一个 jpg 文件。我需要把它放在一个 byte[] 数组中而不是创建一个文件。可能吗？

Answer 1

这可以通过 ImageIO.write(Image, String, OutputStream) which can write to an arbitrary OutputStream rather than disk. ByteArrayOutputStream 将输出字节存储到内存中的数组中来完成。

import java.io.ByteArrayOutputStream;
...
// example image
BufferedImage image = new BufferedImage(4, 3, BufferedImage.TYPE_INT_ARGB);

// to array
ByteArrayOutputStream bos = new ByteArrayOutputStream();
ImageIO.write(image, "jpg", bos);
byte [] output = bos.toByteArray();
System.out.println(Arrays.toString(output));

使用 PDFBox 将图像转换为 byte[]

Converting an image to byte[] by using PDFBox

java

pdf

pdfbox