如何在 Java 中的 pdf 中仅替换一个 url,最好使用 PdfBox
How to replace only one url from many on a pdf in Java, preferably with PdfBox
我正在编写一个 Java 应用程序,它将遍历 PDF 文件,查找并替换特定的 URL 并替换最后一位(称为 oldreportid) 和一个新的(称为 newreportid),两者都作为参数传递。
例如:
这个:
http://www.test/test.php?T=MQ==&F=NzQ2
会变成这样:
http://www.test/test.php?T=MQ==&F=XXXX
我已经写了大部分代码,但还是卡住了。
下面的代码循环遍历 PDF 文件,查找所有 URL 并将它们全部替换为 newreportid。这不是想要的结果,我只想用它替换包含 oldreportid:
的 URL
public class Helper {
public static void getURL(String oldreportid, String newreportid, String oldpdf, String newpdf) {
PDDocument doc = null;
try {
doc = PDDocument.load(oldpdf);
List allPages = doc.getDocumentCatalog().getAllPages();
for (int i = 0; i < allPages.size(); i++) {
PDPage page = (PDPage) allPages.get(i);
List annotations = page.getAnnotations();
for (int j = 0; j < annotations.size(); j++) {
PDAnnotation annot = (PDAnnotation) annotations.get(j);
if (annot instanceof PDAnnotationLink) {
PDAnnotationLink link = (PDAnnotationLink) annot;
PDAction action = link.getAction();
if (action instanceof PDActionURI) {
PDActionURI uri = (PDActionURI) action;
String oldURL = uri.getURI();
String reportID = oldURL.substring(oldURL.lastIndexOf("=") + 1, oldURL.length());
//System.out.println("a " + reportID);
String newURI = "http://www.test.com/test.php?T=MQ==&F=" + newreportid;
//System.out.println("Page " + (i + 1) + ": Replacing " + oldURL + " with " + newURI);
//if (reportID == oldreportid)
uri.setURI(newURI);
}
}
}
}
doc.save(newpdf);
} catch (IOException e) {
e.printStackTrace();
} catch (COSVisitorException e) {
e.printStackTrace();
} finally {
if (doc != null) {
try {
doc.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
}
所以问题是,如何让它只更改包含 oldreportid 的 URL?
欢迎任何意见。
谢谢!
您可以使用正则表达式替换字符串中的参数。
String oldId = "1234Old";
String newId = "4321New";
String newString = oldURL.replaceAll("(&F=)" + Pattern.quote(oldId) + "(&|$)", "" + newId + "");
上面的正则表达式会匹配一个参数&F=oldId
Pattern.quote() 转义 oldId,以防它包含 RegEx 控制字符。
(&|$) 模式确保参数在 oldId 之后停止 - 它必须是与号(表示下一个参数的开始)或 URI 字符串的结尾。
我正在编写一个 Java 应用程序,它将遍历 PDF 文件,查找并替换特定的 URL 并替换最后一位(称为 oldreportid) 和一个新的(称为 newreportid),两者都作为参数传递。
例如:
这个: http://www.test/test.php?T=MQ==&F=NzQ2
会变成这样: http://www.test/test.php?T=MQ==&F=XXXX
我已经写了大部分代码,但还是卡住了。
下面的代码循环遍历 PDF 文件,查找所有 URL 并将它们全部替换为 newreportid。这不是想要的结果,我只想用它替换包含 oldreportid:
的 URLpublic class Helper {
public static void getURL(String oldreportid, String newreportid, String oldpdf, String newpdf) {
PDDocument doc = null;
try {
doc = PDDocument.load(oldpdf);
List allPages = doc.getDocumentCatalog().getAllPages();
for (int i = 0; i < allPages.size(); i++) {
PDPage page = (PDPage) allPages.get(i);
List annotations = page.getAnnotations();
for (int j = 0; j < annotations.size(); j++) {
PDAnnotation annot = (PDAnnotation) annotations.get(j);
if (annot instanceof PDAnnotationLink) {
PDAnnotationLink link = (PDAnnotationLink) annot;
PDAction action = link.getAction();
if (action instanceof PDActionURI) {
PDActionURI uri = (PDActionURI) action;
String oldURL = uri.getURI();
String reportID = oldURL.substring(oldURL.lastIndexOf("=") + 1, oldURL.length());
//System.out.println("a " + reportID);
String newURI = "http://www.test.com/test.php?T=MQ==&F=" + newreportid;
//System.out.println("Page " + (i + 1) + ": Replacing " + oldURL + " with " + newURI);
//if (reportID == oldreportid)
uri.setURI(newURI);
}
}
}
}
doc.save(newpdf);
} catch (IOException e) {
e.printStackTrace();
} catch (COSVisitorException e) {
e.printStackTrace();
} finally {
if (doc != null) {
try {
doc.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
}
所以问题是,如何让它只更改包含 oldreportid 的 URL?
欢迎任何意见。
谢谢!
您可以使用正则表达式替换字符串中的参数。
String oldId = "1234Old";
String newId = "4321New";
String newString = oldURL.replaceAll("(&F=)" + Pattern.quote(oldId) + "(&|$)", "" + newId + "");
上面的正则表达式会匹配一个参数&F=oldId
Pattern.quote() 转义 oldId,以防它包含 RegEx 控制字符。
(&|$) 模式确保参数在 oldId 之后停止 - 它必须是与号(表示下一个参数的开始)或 URI 字符串的结尾。