显示波斯语 pdf 粘贴内容的问题

problem in displaying pasted content form persian pdf

我有一个波斯语的 pdf 代码,但是当我尝试复制内容时,内容将显示为无意义的字母(数字除外) 示例:我从我的 pdf 中复制了一些文本并将其粘贴到此处: 371960012100240806356111 => '371960012100240806356111' 右边粘贴的数字


但是当我尝试复制名称之类的内容时 ???? 它将被粘贴 £3⁄4ÉuÅ{

我该如何解决这个问题?我想用 python 提取内容,它可以工作,但我无法正确显示名称!

pdf 样本文件在这里:https://ufile.io/qibejys1

谢谢

您可能想尝试以下步骤:

  1. 安装 Tesseract 4 或更高版本,勾选 official tutorial
  2. 获取 Persian-specific model 并将其复制到本地 tessdata 文件夹
  3. 将有问题的 PDF 页面(首先拆分页面,看看 pdftk 工具)转换为 tiff(在 ubuntu 中,使用 convert 命令)
  4. 运行 类似于 tesseract -l fas image.tiff text.txt
  5. 用选项调整你的命令,比如