显示波斯语 pdf 粘贴内容的问题

problem in displaying pasted content form persian pdf

我有一个波斯语的 pdf 代码，但是当我尝试复制内容时，内容将显示为无意义的字母（数字除外）示例：我从我的 pdf 中复制了一些文本并将其粘贴到此处： 371960012100240806356111 => '371960012100240806356111' 右边粘贴的数字

但是当我尝试复制名称之类的内容时？？？？它将被粘贴 £3⁄4ÉuÅ{

我该如何解决这个问题？我想用 python 提取内容，它可以工作，但我无法正确显示名称！

pdf 样本文件在这里：https://ufile.io/qibejys1

谢谢

您可能想尝试以下步骤：

安装 Tesseract 4 或更高版本，勾选 official tutorial
获取 Persian-specific model 并将其复制到本地 tessdata 文件夹
将有问题的 PDF 页面（首先拆分页面，看看 pdftk 工具）转换为 tiff（在 ubuntu 中，使用 convert 命令）
运行类似于 tesseract -l fas image.tiff text.txt
用选项调整你的命令，比如