使用 iText 从 pdf 中提取字体名称、大小、样式

Extract fontname, size, style from pdf with iText

我正在尝试使用 iText 7.1.14 根据字体、字体大小和字体样式从各种 pdf 文件中提取文本。

public class FontSizeSimpleTextExtractionStrategy : SimpleTextExtractionStrategy
{
    FieldInfo _textField = typeof(TextRenderInfo).GetField("text", BindingFlags.NonPublic | BindingFlags.Instance);
    public override void EventOccurred(IEventData data, EventType type)
    {
        if (type.Equals(EventType.RENDER_TEXT))
        {
            TextRenderInfo renderInfo = (TextRenderInfo)data;
            string fontName = renderInfo.GetFont()?.GetFontProgram()?.GetFontNames()?.GetFontName();
            iText.Kernel.Colors.Color color = renderInfo.GetFillColor();
            float size = renderInfo.GetFontSize();

            if (fontName != null)
            {
                _textField.SetValue(renderInfo, "#Data|" + fontName + "|" + size.ToString() + "|" + ColorToString(color) + "|Data#" + renderInfo.GetText());
            }

        }
        base.EventOccurred(data, type);
    }
}

在某些文件中,“大小”的值始终为“1”,尽管 Adob​​e Acrobat 显示正确的字体大小,在 this example file 中为 25 和 11。

是否有机会使用 iText 获得正确的大小?

这个问题的原因是忽略了当前变换矩阵和文本矩阵对绘制文本的变换。

TextRenderInfo返回的字体大小是绘制文本时当前图形状态的字体大小值。该值还不包括当前文本和转换矩阵对绘制文本的转换。 因此,必须通过这些矩阵来转换一个与字体大小值一样长的直立向量,并根据结果确定有效大小。

TextRenderInfo.GetTextMatrix()值实际上包含了文本矩阵和当前变换矩阵的乘积,所以我们只需要使用那个值即可。

class FontSizeSimpleTextExtractionStrategyImproved : SimpleTextExtractionStrategy
{
    FieldInfo _textField = typeof(TextRenderInfo).GetField("text", BindingFlags.NonPublic | BindingFlags.Instance);
    public override void EventOccurred(IEventData data, EventType type)
    {
        if (type.Equals(EventType.RENDER_TEXT))
        {
            TextRenderInfo renderInfo = (TextRenderInfo)data;
            string fontName = renderInfo.GetFont()?.GetFontProgram()?.GetFontNames()?.GetFontName();
            Color color = renderInfo.GetFillColor();

            float size = renderInfo.GetFontSize();
            Vector sizeHighVector = new Vector(0, size, 0);
            Matrix matrix = renderInfo.GetTextMatrix();
            float sizeAdjusted = sizeHighVector.Cross(matrix).Length();

            if (fontName != null)
            {
                _textField.SetValue(renderInfo, "#Data|" + fontName + "|" + sizeAdjusted.ToString() + "|" + ColorToString(color) + "|Data#" + renderInfo.GetText());
            }
        }
        base.EventOccurred(data, type);
    }
}

(ExtractWithFontSize 助手 class)