当我从可搜索的 pdf 文件(使用 tesseract 命令创建)复制文本并将其粘贴到记事本中时,文本正在更改

text is being changed when i do copy it from searchable pdf file (created with tesseract command) and paste it in notepad

我已经通过 运行 在我的其中一张图片上执行命令创建了一个可搜索的 pdf 文件。

tesseract page.jpg test pdf --oem 1 --psm 5 -l urd

这是我已转换为可搜索 pdf 的图像。

图像包含乌尔都语文本,但是当我从新创建的 pdf 文件中复制它并将其粘贴到任何其他文本编辑器中时,这就是我得到的结果。

GehbFie”

这里有任何可以解决我的问题的 tesseract OCR 和编码专家,非常感谢任何帮助,在此先感谢。

pdf 是配置文件名。它需要放在命令的最后,在 --oem --psm -l 等之后

命令的正确格式如下。

tesseract page.jpg test --oem 1 --psm 5 -l urd pdf

我用这种方式解决了我的问题。