使用 ExtractText 命令行工具时提取 space 的错误字符
Extracting wrong character for space while using ExtractText command line tool
用于提取文件的命令是java -jar pdfbox-app-2.0.7.jar ExtractText -console DiffSzSpaceIssue.pdf
。同样的输出是。
This%is%one%
This%is%two%
This%is%three%
This%is%four%
用 PDFDebugger 检查了 pdf。我看到以下关于问题“%”
的条目
Code Glyph Name Unicode Character Glyph
37 1 % None
在有 unicode 但没有字形的情况下,请问如何正确提取文本?我期待以下输出,因为 pdf 中永远不会呈现“%”字符。
This is one
This is two
This is three
This is four
输入的 pdf 文件是 here。
显然,有时某些 pdf 中的 Unicode 映射可能是错误的,在这种情况下,需要删除 Unicode 映射并重新尝试提取。这道题明确的指出了映射错误的地方。 %->None
(Unicode->字形)
用于提取文件的命令是java -jar pdfbox-app-2.0.7.jar ExtractText -console DiffSzSpaceIssue.pdf
。同样的输出是。
This%is%one%
This%is%two%
This%is%three%
This%is%four%
用 PDFDebugger 检查了 pdf。我看到以下关于问题“%”
的条目Code Glyph Name Unicode Character Glyph
37 1 % None
在有 unicode 但没有字形的情况下,请问如何正确提取文本?我期待以下输出,因为 pdf 中永远不会呈现“%”字符。
This is one
This is two
This is three
This is four
输入的 pdf 文件是 here。
显然,有时某些 pdf 中的 Unicode 映射可能是错误的,在这种情况下,需要删除 Unicode 映射并重新尝试提取。这道题明确的指出了映射错误的地方。 %->None
(Unicode->字形)