如何在 pdfbox 2.0.0 的 truetype0font 中添加 unicode?
how to add unicode in truetype0font on pdfbox 2.0.0?
我一直在 Java 项目中使用 PDFBOX 2.0.0 版将 pdf 转换为文本。
我的几个 pdf 文件缺少 ToUnicode 方法,因此在我导出它们时它们以乱码形式出现。
2016-09-14 10:44:55 WARN org.apache.pdfbox.pdmodel.font.PDSimpleFont(1):322 - No Unicode mapping for 694 (30) in font MPBAAA+F1
在上面的 WARN 中,出现了乱码 unicode (30) 而不是真实字符。
我能够通过在 pdfbox 中编辑 additional.txt
文件来克服它,因为通过反复试验我了解到字符的代码(在本例中为 694)代表某个希伯来字母 (צ) .
这是我在文件中编辑的内容的简短示例:
-694;05E6 #HexaDecimal value for the letter צ
-695;05E7
-696;05E8
后来我在不同的 pdf 上遇到了几乎相同的警告,但我得到的不是乱码字符,而是根本没有字符。
可以在此处查看此问题的更详细解释 -
2016-09-14 11:07:10 WARN org.apache.pdfbox.pdmodel.font.PDType0Font(1):431 - No Unicode mapping for CID+694 (694) in font ABCDEE+Tahoma,Bold
如您所见,警告来自不同的 class (PDType0Font
) 而不是第一个警告 (PDSimpleFont
),但代码名称 (694) 是他们两个都一样,他们都在谈论同一个角色。
除了 additional.txt
将 694 代码(希伯来字母 צ)指向正确的 unicode 之外,是否还有我应该编辑的其他文件?
谢谢
下面是一些在字体中添加 ToUnicode CMap 流的代码。显然我不能用你的文件来做,所以我使用了我的一个测试文件,可以找到 here。我不得不分别处理每个条目,但没有全部完成。然而,结果足以提取绿色打印中的第一个单词 ("Bedingungen")。
这个场景有点适合你:
- Identity-H条目
- 没有 ToUnicode 条目
具体字体名称
try (PDDocument doc = PDDocument.load(f))
{
for (int p = 0; p < doc.getNumberOfPages(); ++p)
{
PDPage page = doc.getPage(p);
PDResources res = page.getResources();
for (COSName fontName : res.getFontNames())
{
PDFont font = res.getFont(fontName);
COSBase encoding = font.getCOSObject().getDictionaryObject(COSName.ENCODING);
if (!COSName.IDENTITY_H.equals(encoding))
{
continue;
}
// get real name
String fname = font.getName();
int plus = fname.indexOf('+');
if (plus != -1)
{
fname = fname.substring(plus + 1);
}
if (font.getCOSObject().containsKey(COSName.TO_UNICODE))
{
continue;
}
System.out.println("File '" + f.getName() + "', page " + (p + 1) + ", " + fontName.getName() + ", " + font.getName());
if (!fname.startsWith("Calibri-Bold"))
{
continue;
}
COSStream toUnicodeStream = new COSStream();
try (PrintWriter pw = new PrintWriter(toUnicodeStream.createOutputStream(COSName.FLATE_DECODE)))
{
// "9.10 Extraction of Text Content" in the PDF 32000 specification
pw.println ("/CIDInit /ProcSet findresource begin\n" +
"12 dict begin\n" +
"begincmap\n" +
"/CIDSystemInfo\n" +
"<< /Registry (Adobe)\n" +
"/Ordering (UCS) /Supplement 0 >> def\n" +
"/CMapName /Adobe-Identity-UCS def\n" +
"/CMapType 2 def\n" +
"1 begincodespacerange\n" +
"<0000> <FFFF>\n" +
"endcodespacerange\n" +
"10 beginbfchar\n" + // number is count of entries
"<0001><0020>\n" + // space
"<0002><0041>\n" + // A
"<0003><0042>\n" + // B
"<0004><0044>\n" + // D
"<0013><0065>\n" + // e
"<0012><0064>\n" + // d
"<0017><0069>\n" + // i
"<001B><006E>\n" + // n
"<0015><0067>\n" + // g
"<0020><0075>\n" + // u
"endbfchar\n" +
"endcmap CMapName currentdict /CMap defineresource pop end end");
}
font.getCOSObject().setItem(COSName.TO_UNICODE, toUnicodeStream);
}
}
doc.save("huhu.pdf");
}
顺便说一句,未发布的 2.1 版本的 PDFDebugger 有一些改进的功能来显示字体,你可以得到它 here:
您可以使用它来验证您的 ToUnicode CMap 是否有意义。这是我所做的更改:
我一直在 Java 项目中使用 PDFBOX 2.0.0 版将 pdf 转换为文本。
我的几个 pdf 文件缺少 ToUnicode 方法,因此在我导出它们时它们以乱码形式出现。
2016-09-14 10:44:55 WARN org.apache.pdfbox.pdmodel.font.PDSimpleFont(1):322 - No Unicode mapping for 694 (30) in font MPBAAA+F1
在上面的 WARN 中,出现了乱码 unicode (30) 而不是真实字符。
我能够通过在 pdfbox 中编辑 additional.txt
文件来克服它,因为通过反复试验我了解到字符的代码(在本例中为 694)代表某个希伯来字母 (צ) .
这是我在文件中编辑的内容的简短示例:
-694;05E6 #HexaDecimal value for the letter צ
-695;05E7
-696;05E8
后来我在不同的 pdf 上遇到了几乎相同的警告,但我得到的不是乱码字符,而是根本没有字符。
可以在此处查看此问题的更详细解释 -
2016-09-14 11:07:10 WARN org.apache.pdfbox.pdmodel.font.PDType0Font(1):431 - No Unicode mapping for CID+694 (694) in font ABCDEE+Tahoma,Bold
如您所见,警告来自不同的 class (PDType0Font
) 而不是第一个警告 (PDSimpleFont
),但代码名称 (694) 是他们两个都一样,他们都在谈论同一个角色。
除了 additional.txt
将 694 代码(希伯来字母 צ)指向正确的 unicode 之外,是否还有我应该编辑的其他文件?
谢谢
下面是一些在字体中添加 ToUnicode CMap 流的代码。显然我不能用你的文件来做,所以我使用了我的一个测试文件,可以找到 here。我不得不分别处理每个条目,但没有全部完成。然而,结果足以提取绿色打印中的第一个单词 ("Bedingungen")。
这个场景有点适合你:
- Identity-H条目
- 没有 ToUnicode 条目
具体字体名称
try (PDDocument doc = PDDocument.load(f)) { for (int p = 0; p < doc.getNumberOfPages(); ++p) { PDPage page = doc.getPage(p); PDResources res = page.getResources(); for (COSName fontName : res.getFontNames()) { PDFont font = res.getFont(fontName); COSBase encoding = font.getCOSObject().getDictionaryObject(COSName.ENCODING); if (!COSName.IDENTITY_H.equals(encoding)) { continue; } // get real name String fname = font.getName(); int plus = fname.indexOf('+'); if (plus != -1) { fname = fname.substring(plus + 1); } if (font.getCOSObject().containsKey(COSName.TO_UNICODE)) { continue; } System.out.println("File '" + f.getName() + "', page " + (p + 1) + ", " + fontName.getName() + ", " + font.getName()); if (!fname.startsWith("Calibri-Bold")) { continue; } COSStream toUnicodeStream = new COSStream(); try (PrintWriter pw = new PrintWriter(toUnicodeStream.createOutputStream(COSName.FLATE_DECODE))) { // "9.10 Extraction of Text Content" in the PDF 32000 specification pw.println ("/CIDInit /ProcSet findresource begin\n" + "12 dict begin\n" + "begincmap\n" + "/CIDSystemInfo\n" + "<< /Registry (Adobe)\n" + "/Ordering (UCS) /Supplement 0 >> def\n" + "/CMapName /Adobe-Identity-UCS def\n" + "/CMapType 2 def\n" + "1 begincodespacerange\n" + "<0000> <FFFF>\n" + "endcodespacerange\n" + "10 beginbfchar\n" + // number is count of entries "<0001><0020>\n" + // space "<0002><0041>\n" + // A "<0003><0042>\n" + // B "<0004><0044>\n" + // D "<0013><0065>\n" + // e "<0012><0064>\n" + // d "<0017><0069>\n" + // i "<001B><006E>\n" + // n "<0015><0067>\n" + // g "<0020><0075>\n" + // u "endbfchar\n" + "endcmap CMapName currentdict /CMap defineresource pop end end"); } font.getCOSObject().setItem(COSName.TO_UNICODE, toUnicodeStream); } } doc.save("huhu.pdf"); }
顺便说一句,未发布的 2.1 版本的 PDFDebugger 有一些改进的功能来显示字体,你可以得到它 here:
您可以使用它来验证您的 ToUnicode CMap 是否有意义。这是我所做的更改: