pdf到word转换显示垃圾内容
pdf to word conversion shows garbage contents
我有一份没有复制限制的 public PDF。但是,当我尝试将 PDF 中的文本复制到 Word 中时,我只会收到无法阅读的乱码(如方框和符号)。
我试过更改字体,但也没有用。我不明白是什么导致了这个问题。
我还搜索了一些在线工具,但 none 似乎也能用。
有什么帮助或想法吗?
干杯。
如果您尝试的所有(在线)工具都无法处理此文档,有两种选择:
- 每个工具都是错误的
- 您的文档有误
我认为结论 2 有道理。
但是,请允许我解释一下可能的罪魁祸首。
首先,您应该将 pdf 文档视为指令的容器,而不是所见即所得的文档。所以提取文本已经是一件非常重要的事情了。
不过这里的问题好像是编码的问题。
您的文档包含类似 "draw ب at position 10, 50" 的说明。 (我以阿拉伯语文本为例。)
如果没有任何进一步的信息,查看者(如 Adobe)将很难知道如何处理复制粘贴功能。您系统上的复制粘贴缓冲区不使用字形,而是使用 unicode。
换句话说,在复制粘贴时,Adobe 必须尝试将字形转换为实际的 unicode。
通常,字体包含有帮助的信息。我们称之为 'toUnicode' 地图。
它告诉系统某些字形如何与某些字符匹配。
如果您的字体不包含这种映射,使用该字体会妨碍您正确地复制粘贴。此外,还有一些程序会故意生成错误的 toUnicode 映射(作为防止从该文档复制粘贴的一种方式)。
我有一份没有复制限制的 public PDF。但是,当我尝试将 PDF 中的文本复制到 Word 中时,我只会收到无法阅读的乱码(如方框和符号)。
我试过更改字体,但也没有用。我不明白是什么导致了这个问题。
我还搜索了一些在线工具,但 none 似乎也能用。
有什么帮助或想法吗?
干杯。
如果您尝试的所有(在线)工具都无法处理此文档,有两种选择:
- 每个工具都是错误的
- 您的文档有误
我认为结论 2 有道理。 但是,请允许我解释一下可能的罪魁祸首。
首先,您应该将 pdf 文档视为指令的容器,而不是所见即所得的文档。所以提取文本已经是一件非常重要的事情了。
不过这里的问题好像是编码的问题。 您的文档包含类似 "draw ب at position 10, 50" 的说明。 (我以阿拉伯语文本为例。)
如果没有任何进一步的信息,查看者(如 Adobe)将很难知道如何处理复制粘贴功能。您系统上的复制粘贴缓冲区不使用字形,而是使用 unicode。
换句话说,在复制粘贴时,Adobe 必须尝试将字形转换为实际的 unicode。
通常,字体包含有帮助的信息。我们称之为 'toUnicode' 地图。 它告诉系统某些字形如何与某些字符匹配。
如果您的字体不包含这种映射,使用该字体会妨碍您正确地复制粘贴。此外,还有一些程序会故意生成错误的 toUnicode 映射(作为防止从该文档复制粘贴的一种方式)。