显示波斯语 pdf 粘贴内容的问题
problem in displaying pasted content form persian pdf
我有一个波斯语的 pdf 代码,但是当我尝试复制内容时,内容将显示为无意义的字母(数字除外)
示例:我从我的 pdf 中复制了一些文本并将其粘贴到此处:
371960012100240806356111 => '371960012100240806356111'
右边粘贴的数字
但是当我尝试复制名称之类的内容时
????
它将被粘贴
£3⁄4ÉuÅ{
我该如何解决这个问题?我想用 python 提取内容,它可以工作,但我无法正确显示名称!
pdf 样本文件在这里:https://ufile.io/qibejys1
谢谢
您可能想尝试以下步骤:
- 安装 Tesseract 4 或更高版本,勾选 official tutorial
- 获取 Persian-specific model 并将其复制到本地 tessdata 文件夹
- 将有问题的 PDF 页面(首先拆分页面,看看
pdftk
工具)转换为 tiff(在 ubuntu 中,使用 convert
命令)
- 运行 类似于
tesseract -l fas image.tiff text.txt
- 用选项调整你的命令,比如
我有一个波斯语的 pdf 代码,但是当我尝试复制内容时,内容将显示为无意义的字母(数字除外) 示例:我从我的 pdf 中复制了一些文本并将其粘贴到此处: 371960012100240806356111 => '371960012100240806356111' 右边粘贴的数字
但是当我尝试复制名称之类的内容时 ???? 它将被粘贴 £3⁄4ÉuÅ{
我该如何解决这个问题?我想用 python 提取内容,它可以工作,但我无法正确显示名称!
pdf 样本文件在这里:https://ufile.io/qibejys1
谢谢
您可能想尝试以下步骤:
- 安装 Tesseract 4 或更高版本,勾选 official tutorial
- 获取 Persian-specific model 并将其复制到本地 tessdata 文件夹
- 将有问题的 PDF 页面(首先拆分页面,看看
pdftk
工具)转换为 tiff(在 ubuntu 中,使用convert
命令) - 运行 类似于
tesseract -l fas image.tiff text.txt
- 用选项调整你的命令,比如