PDF 文档可以包含 "unreachable" 内容吗？

Question

我正在调查 Java PDF 库。

我试过了

org.apache.pdfbox

File file = new File("file.pdf");
PDDocument document = PDDocument.load(file);

// Instantiate PDFTextStripper class
PDFTextStripper pdfStripper = new PDFTextStripper();

// Retrieving text from PDF document
String text = pdfStripper.getText(document);
System.out.println(text);

// Closing the document
document.close();

com.itextpdf.text.pdf

public static final String SRC = "file.pdf";
public static final String DEST = "streams";

public static void main(final String[] args) throws IOException {
    File file = new File(DEST);
    new BruteForce().parse(SRC, DEST);
}

public void parse(final String src, final String dest) throws IOException {
    PdfReader reader = new PdfReader(src);
    PdfObject obj;
    for (int i = 1; i <= reader.getXrefSize(); i++) {
        obj = reader.getPdfObject(i);

        if ((obj != null) && obj.isStream()) {
            PRStream stream = (PRStream) obj;
            byte[] b;
            try {
                b = PdfReader.getStreamBytes(stream);
            } catch (UnsupportedPdfException e) {
                b = PdfReader.getStreamBytesRaw(stream);
            }
            FileOutputStream fos = new FileOutputStream(String.format(dest, i));
            fos.write(b);
            fos.flush();
            fos.close();
        } else {
            final PdfDictionary pdfDictionary = (PdfDictionary) obj;

            System.out.println("\t>>>>> " + pdfDictionary + "\t\t" + pdfDictionary.getKeys());

            final Set<PdfName> pdfNames = pdfDictionary.getKeys();

            for (final PdfName pdfName : pdfNames) {
                final PdfObject pdfObject = pdfDictionary.get(pdfName);
                final int type = pdfObject.type();
                switch (type) {
                case PdfObject.NULL:
                    System.out.println("\t NULL " + pdfObject);
                    break;
                case PdfObject.BOOLEAN:
                    System.out.println("\t BOOLEAN " + pdfObject);
                    break;
                case PdfObject.NUMBER:
                    System.out.println("\t NUMBER " + pdfObject);
                    break;
                case PdfObject.STRING:
                    System.out.println("\t STRING " + pdfObject);
                    break;
                case PdfObject.NAME:
                    System.out.println("\t NAME " + pdfObject);
                    break;
                case PdfObject.ARRAY:
                    System.out.println("\t ARRAY " + pdfObject);
                    break;
                case PdfObject.DICTIONARY:
                    System.out.println("\t DICTIONARY " + ((PdfDictionary)pdfObject).getKeys());
                    break;
                case PdfObject.STREAM:
                    System.out.println("\t STREAM " + pdfObject);
                    break;
                case PdfObject.INDIRECT:
                    System.out.println("\t INDIRECT " +pdfObject.getIndRef());
                    break;
                default:

                }
                System.out.println("\t\t--- " + pdfObject.type());
            }
        }
    }
}