IronPdf 中的多字节字符读取问题

Multibyte characters reading problem in IronPdf

我正在尝试 IronPDF。我想将 PDF 元数据插入到我用 IronPDF 读取的数据库中。但是,IronPDF 无法读取元数据中的某些“ı”字符。空格代替这些字符。这是我的代码示例:

var md = PdfDocument.FromFile("___PATH OF PDF FILE___");
var article_title = md.MetaData.Title;

当我将粘贴字符串复制到 Notepad++ 时,结果如下:

这是应用程序视图的屏幕截图:

有没有办法解决这个问题,或者这是 IronPDF 的一个错误?如果一切顺利,我当然会考虑购买。但当然,如果第一次尝试失败,请继续使用 iTextSharp。

编辑: 首先,我为 Windows 道歉,这让我很惊讶。我整天都在努力安装一个新系统,不幸的是它仍然 visual studio 等没有安装。我在下面添加了一个我遇到问题的文件,IronPDF 版本显示为 2019.7.0.0.

PDF 文件:https://yadi.sk/d/HwP9JWRWTzMlSA

首先,由于您没有向我们提供可使用的示例 PDF;我有 google 一些土耳其语 PDF 文档,其中包含带有土耳其语字符的元数据。这是我想出的文件:link 正如您在上方看到的 Author 元数据字段具有 ı 土耳其语字符。

然后我创建了一个 dotnet fiddle 以便使用 IronPDF 测试此文件(使用最新的可用版本 - 因为您没有指定任何版本): sample using IronPDF

此示例的输出是 ElifCakroglu,当复制到 Notepad++ 时,它显示出完全相同的症状:

使用编码无助于解决此问题。所以我创建了另一个 dotnet fiddle 来测试你的替代解决方案,它是 iTextSharp:sample using iTextSharp

这次一切正常:ElifCakıroglu

注意:我还尝试创建一个 Word 2016 文档并将其另存为 PDF,然后将该文件与上述示例一起使用,但两者都不起作用 (不接受为有效的 PDF) 出于某种原因。之后我尝试了在线 PDF 文档验证器,但文件没问题。然后我使用 an online converter 使用默认设置更改 PDF 版本,并将输出 PDF 与两个示例一起使用,令人惊讶的是 它们都工作正常.

我的结论是,iTextSharp 与两个具有包含土耳其字符的元数据的文档一致地工作,而 IronPDF 在 50% 的时间里工作正常。

我相信这个问题已经解决,可以在 IronPdf 的 2020.9 版本分支中进行测试。

https://www.nuget.org/packages/IronPdf/