PDF 注释中字节字符串的奇怪损坏,不会在 utf-8 (pdfminer) 中解码

Odd corruption of byte string in PDF annotations, won't decode in utf-8 (pdfminer)

我在尝试从 pdf 文件中抓取 link 时弹出一个奇怪的问题。 link 在 pdf 文件中显示为“http://www.mbc.ca.gov/Licensees/License_Renewal/Physician_Survey.aspx”。然而,结果是:

b'http://www.mbc.ca.gov/Licensees/License_Renewal/Physici\xe9C@|\xf2\xefw\x0e\xd3\x8d>X\x0f\xe7\xc6'

在 PDFObjRef 上执行 resolve() 方法时。为什么突然腐败在link那里?几乎看起来像一个换行符或被解释为一个字节的东西。另外,如果它是人类可读的,为什么它甚至是一个字节字符串?这是 pdfminer 的正常行为吗?

尝试使用 utf-8 解码该字节字符串时出现此错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 55: invalid continuation byte

我认为这已经完蛋了。该脚本适用于我遇到的所有 pdf,但这个除外。因此,除非有人能提出 pdfminer 将 weird/corrupt 将大约 40-60 个字符编码成字节字符串的原因,否则这就是 FUBAR。