pdf到word转换显示垃圾内容

pdf to word conversion shows garbage contents

我有一份没有复制限制的 public PDF。但是,当我尝试将 PDF 中的文本复制到 Word 中时,我只会收到无法阅读的乱码(如方框和符号)。

我试过更改字体,但也没有用。我不明白是什么导致了这个问题。

我还搜索了一些在线工具,但 none 似乎也能用。

有什么帮助或想法吗?

干杯。

如果您尝试的所有(在线)工具都无法处理此文档,有两种选择:

  1. 每个工具都是错误的
  2. 您的文档有误

我认为结论 2 有道理。 但是,请允许我解释一下可能的罪魁祸首。

首先,您应该将 pdf 文档视为指令的容器,而不是所见即所得的文档。所以提取文本已经是一件非常重要的事情了。

不过这里的问题好像是编码的问题。 您的文档包含类似 "draw ب at position 10, 50" 的说明。 (我以阿拉伯语文本为例。)

如果没有任何进一步的信息,查看者(如 Adob​​e)将很难知道如何处理复制粘贴功能。您系统上的复制粘贴缓冲区不使用字形,而是使用 unicode。

换句话说,在复制粘贴时,Adobe 必须尝试将字形转换为实际的 unicode。

通常,字体包含有帮助的信息。我们称之为 'toUnicode' 地图。 它告诉系统某些字形如何与某些字符匹配。

如果您的字体不包含这种映射,使用该字体会妨碍您正确地复制粘贴。此外,还有一些程序会故意生成错误的 toUnicode 映射(作为防止从该文档复制粘贴的一种方式)。