当我从可搜索的 pdf 文件(使用 tesseract 命令创建)复制文本并将其粘贴到记事本中时,文本正在更改
text is being changed when i do copy it from searchable pdf file (created with tesseract command) and paste it in notepad
我已经通过 运行 在我的其中一张图片上执行命令创建了一个可搜索的 pdf 文件。
tesseract page.jpg test pdf --oem 1 --psm 5 -l urd
这是我已转换为可搜索 pdf 的图像。
图像包含乌尔都语文本,但是当我从新创建的 pdf 文件中复制它并将其粘贴到任何其他文本编辑器中时,这就是我得到的结果。
GehbFie”
这里有任何可以解决我的问题的 tesseract OCR 和编码专家,非常感谢任何帮助,在此先感谢。
pdf 是配置文件名。它需要放在命令的最后,在 --oem --psm -l 等之后
命令的正确格式如下。
tesseract page.jpg test --oem 1 --psm 5 -l urd pdf
我用这种方式解决了我的问题。
我已经通过 运行 在我的其中一张图片上执行命令创建了一个可搜索的 pdf 文件。
tesseract page.jpg test pdf --oem 1 --psm 5 -l urd
这是我已转换为可搜索 pdf 的图像。
图像包含乌尔都语文本,但是当我从新创建的 pdf 文件中复制它并将其粘贴到任何其他文本编辑器中时,这就是我得到的结果。
GehbFie”
这里有任何可以解决我的问题的 tesseract OCR 和编码专家,非常感谢任何帮助,在此先感谢。
pdf 是配置文件名。它需要放在命令的最后,在 --oem --psm -l 等之后
命令的正确格式如下。
tesseract page.jpg test --oem 1 --psm 5 -l urd pdf
我用这种方式解决了我的问题。