如何从 PDF 中读取日语字符?
How do I read Japanese characters from a PDF?
我正在使用 C# 中的 IText7 解析一个包含日文字符的 PDF 文件,如下所示:
public static string ExtractTextFromPDF(string filePath)
{
var pdfReader = new PdfReader(filePath);
var pdfDoc = new PdfDocument(pdfReader);
var sb = new StringBuilder();
for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
var strategy = new SimpleTextExtractionStrategy();
sb.Append(PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy));
}
pdfDoc.Close();
pdfReader.Close();
return sb.ToString();
}
但是我运行进入了异常:
iText.IO.IOException: 'The CMap iText.IO.Font.Cmap.UniJIS-UTF16-H was
not found.'
我四处寻找关于如何添加这个的解决方案,但我还没有想出任何适用于日文字符的方法。如果有任何其他更适合的图书馆也可以。有帮助吗?
谢谢
CMap 编码(特别是 CJK 脚本)位于单独的包中。
对于 .Net 使用 itext7.font-asian
通过 nuget。
对于 Java 通过 maven 使用 com.itextpdf:font-asian
。
此包的存在对于 Java version than for the .Net version。
更明显
我正在使用 C# 中的 IText7 解析一个包含日文字符的 PDF 文件,如下所示:
public static string ExtractTextFromPDF(string filePath)
{
var pdfReader = new PdfReader(filePath);
var pdfDoc = new PdfDocument(pdfReader);
var sb = new StringBuilder();
for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
var strategy = new SimpleTextExtractionStrategy();
sb.Append(PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy));
}
pdfDoc.Close();
pdfReader.Close();
return sb.ToString();
}
但是我运行进入了异常:
iText.IO.IOException: 'The CMap iText.IO.Font.Cmap.UniJIS-UTF16-H was not found.'
我四处寻找关于如何添加这个的解决方案,但我还没有想出任何适用于日文字符的方法。如果有任何其他更适合的图书馆也可以。有帮助吗?
谢谢
CMap 编码(特别是 CJK 脚本)位于单独的包中。
对于 .Net 使用 itext7.font-asian
通过 nuget。
对于 Java 通过 maven 使用 com.itextpdf:font-asian
。
此包的存在对于 Java version than for the .Net version。
更明显