如何在 Java 中的 pdf 中仅替换一个 url,最好使用 PdfBox

How to replace only one url from many on a pdf in Java, preferably with PdfBox

我正在编写一个 Java 应用程序,它将遍历 PDF 文件,查找并替换特定的 URL 并替换最后一位(称为 oldreportid) 和一个新的(称为 newreportid),两者都作为参数传递。

例如:

这个: http://www.test/test.php?T=MQ==&F=NzQ2

会变成这样: http://www.test/test.php?T=MQ==&F=XXXX

我已经写了大部分代码,但还是卡住了。

下面的代码循环遍历 PDF 文件,查找所有 URL 并将它们全部替换为 newreportid。这不是想要的结果,我只想用它替换包含 oldreportid:

的 URL
public class Helper {


public static void getURL(String oldreportid, String newreportid, String oldpdf, String newpdf) {
    PDDocument doc = null;

    try {
        doc = PDDocument.load(oldpdf);
        List allPages = doc.getDocumentCatalog().getAllPages();
        for (int i = 0; i < allPages.size(); i++) {
            PDPage page = (PDPage) allPages.get(i);
            List annotations = page.getAnnotations();
            for (int j = 0; j < annotations.size(); j++) {
                PDAnnotation annot = (PDAnnotation) annotations.get(j);
                if (annot instanceof PDAnnotationLink) {
                    PDAnnotationLink link = (PDAnnotationLink) annot;
                    PDAction action = link.getAction();
                    if (action instanceof PDActionURI) {
                        PDActionURI uri = (PDActionURI) action;
                        String oldURL = uri.getURI();

                        String reportID = oldURL.substring(oldURL.lastIndexOf("=") + 1, oldURL.length());
                        //System.out.println("a " + reportID);
                        String newURI = "http://www.test.com/test.php?T=MQ==&F=" + newreportid;
                        //System.out.println("Page " + (i + 1) + ": Replacing " + oldURL + " with " + newURI);
                        //if (reportID == oldreportid)

                        uri.setURI(newURI);
                    }
                }
            }
        }

        doc.save(newpdf);

    } catch (IOException e) {
        e.printStackTrace();
    } catch (COSVisitorException e) {
        e.printStackTrace();
    } finally {
        if (doc != null) {
            try {
                doc.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}
}

所以问题是,如何让它只更改包含 oldreportid 的 URL?

欢迎任何意见。

谢谢!

您可以使用正则表达式替换字符串中的参数。

String oldId = "1234Old";
String newId = "4321New";

String newString = oldURL.replaceAll("(&F=)" + Pattern.quote(oldId) + "(&|$)", "" + newId + "");

上面的正则表达式会匹配一个参数&F=oldId

Pattern.quote() 转义 oldId,以防它包含 RegEx 控制字符。

(&|$) 模式确保参数在 oldId 之后停止 - 它必须是与号(表示下一个参数的开始)或 URI 字符串的结尾。