PDFBox:检测给定页面中突出显示的文本

PDFBox: Detecting the highlighted text in a given page

PDFBox 版本 2.0.20

我正在尝试检测以下 PDF 的突出显示文本(出现在第 #5、6、7、9 页的黑框中):

我使用了 中提出的解决方案,但没能检测到它们。例如:page.getAnnotations() returns 空列表。知道如何检测它们吗?

不用检测,原文有,那是经典的密文失败案例,高亮是黑色还是透视黄色都无所谓。只需复制并粘贴或将页面导出为纯文本。

在这里我们可以看到黑色矩形“路径”或它们下方的文本之间没有直接关系。它们是页面上的独立对象。只有良好的下游加工才能将它们结合在一起。

感兴趣区域是一个由多个矩形组成的区域,边缘参差不齐,并试图通过在内部和外部之间剪裁文本的可变方式来匹配感兴趣区域内或重叠的任何文本,这就是密文的原因是一个常见的失败。听起来像是一个巨大的挑战,需要大量磨练。

[稍后编辑]

pdfbox团队可以给点建议。和@TilmanHausherr 建议从查看

开始