Tika PDF reader 在单词中插入奇怪的间距(类似连字符)

Tika PDF reader inserts weird spacing in words (hyphen like)

我正在使用 TIKA java 库来阅读一些 PDF 的内容,它似乎插入了一些奇怪的(类似连字符的)间距。例如:

The es tab lish ment of an in te grated Part ner Re la tion ship Man age ment (PRM) sys tem can po ten tially ad dress sev eral as pets

我尝试使用 pdftotext 命令行实用程序从同一个 PDF 中提取文本,它正确提取了文本:

The establishment of an integrated Partner Relationship Management (PRM) system can potentially address several aspects

有人知道为什么 TIKA 会这样吗?有什么解决方法吗?

此致, 奥古斯托

在 PDFBox Jira 中跟踪到一个问题。它的描述与描述的行为相匹配:https://issues.apache.org/jira/browse/PDFBOX-2425