如何从 PDF 中读取日语字符？

Question

我正在使用 C# 中的 IText7 解析一个包含日文字符的 PDF 文件，如下所示：

    public static string ExtractTextFromPDF(string filePath)
    {
        var pdfReader = new PdfReader(filePath);
        var pdfDoc = new PdfDocument(pdfReader);
        var sb = new StringBuilder();
        for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
        {
            var strategy = new SimpleTextExtractionStrategy();
            sb.Append(PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy));
        }
        pdfDoc.Close();
        pdfReader.Close();
        return sb.ToString();
    }

但是我运行进入了异常：

iText.IO.IOException: 'The CMap iText.IO.Font.Cmap.UniJIS-UTF16-H was not found.'

我四处寻找关于如何添加这个的解决方案，但我还没有想出任何适用于日文字符的方法。如果有任何其他更适合的图书馆也可以。有帮助吗？

谢谢

Answer 1

CMap 编码（特别是 CJK 脚本）位于单独的包中。

对于 .Net 使用 itext7.font-asian 通过 nuget。

对于 Java 通过 maven 使用 com.itextpdf:font-asian。

此包的存在对于 Java version than for the .Net version。

更明显

如何从 PDF 中读取日语字符？

How do I read Japanese characters from a PDF?

c#

pdf

unicode

itext

itext7