Ghostscript txtwrite bbox 限制
Ghostscript txtwrite bbox limits
当我将 ghostscript
与 textwrite
设备一起使用时,我得到一个描述我的 pdf
的 XML
文件,即
<page>
<block>
<line>
<span bbox="95 97 357 97" font="..." size="9.0000">
<char bbox="95 97 106 97" c="a"/>
<char bbox="106 97 117 97" c="b"/>
<char bbox="117 97 126 97" c="c"/>
...
</span>
</line>
</block>
<block>
...
我的问题是 bbox(边界框)坐标是否有已知比例 (X1,Y1,X2,Y2)
或者它们是否依赖于页面?无论如何,我能否以任何方式获取页面网格以了解其高度和宽度?
我在这里的主要观点是太了解角色是否位于页面中心之外等功能
我将 pdf
转换为 XML
的完整命令:
ghostscript -q -sPAPERSIZE=a4 -r200 -sDEVICE=txtwrite" -sOutputFile=<output-path.xml> -dTextFormat=1 -dBATCH -dNOPAUSE <input-path.pdf>
边界框采用 PostScript/PDF 单位,1/72 英寸。请注意,输出并不是真正的 XML,而是 'like' XML.
当我将 ghostscript
与 textwrite
设备一起使用时,我得到一个描述我的 pdf
的 XML
文件,即
<page>
<block>
<line>
<span bbox="95 97 357 97" font="..." size="9.0000">
<char bbox="95 97 106 97" c="a"/>
<char bbox="106 97 117 97" c="b"/>
<char bbox="117 97 126 97" c="c"/>
...
</span>
</line>
</block>
<block>
...
我的问题是 bbox(边界框)坐标是否有已知比例 (X1,Y1,X2,Y2)
或者它们是否依赖于页面?无论如何,我能否以任何方式获取页面网格以了解其高度和宽度?
我在这里的主要观点是太了解角色是否位于页面中心之外等功能
我将 pdf
转换为 XML
的完整命令:
ghostscript -q -sPAPERSIZE=a4 -r200 -sDEVICE=txtwrite" -sOutputFile=<output-path.xml> -dTextFormat=1 -dBATCH -dNOPAUSE <input-path.pdf>
边界框采用 PostScript/PDF 单位,1/72 英寸。请注意,输出并不是真正的 XML,而是 'like' XML.