PDF 注释中字节字符串的奇怪损坏，不会在 utf-8 (pdfminer) 中解码

Question

我在尝试从 pdf 文件中抓取 link 时弹出一个奇怪的问题。 link 在 pdf 文件中显示为“http://www.mbc.ca.gov/Licensees/License_Renewal/Physician_Survey.aspx”。然而，结果是：

b'http://www.mbc.ca.gov/Licensees/License_Renewal/Physici\xe9C@|\xf2\xefw\x0e\xd3\x8d>X\x0f\xe7\xc6'

在 PDFObjRef 上执行 resolve() 方法时。为什么突然腐败在link那里？几乎看起来像一个换行符或被解释为一个字节的东西。另外，如果它是人类可读的，为什么它甚至是一个字节字符串？这是 pdfminer 的正常行为吗？

尝试使用 utf-8 解码该字节字符串时出现此错误：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 55: invalid continuation byte

Answer 1

我认为这已经完蛋了。该脚本适用于我遇到的所有 pdf，但这个除外。因此，除非有人能提出 pdfminer 将 weird/corrupt 将大约 40-60 个字符编码成字节字符串的原因，否则这就是 FUBAR。

Odd corruption of byte string in PDF annotations, won't decode in utf-8 (pdfminer)