PDF miner，坏的新行检测

Question

我正在使用此代码从 PDF 获取文本数据：

def pdf_to_txt(path):    
    manager = PDFResourceManager()
    retstr = BytesIO()
    layout = LAParams(all_texts=True)
    device = TextConverter(manager, retstr, laparams=layout)
    filepath = open(path, 'rb')
    interpreter = PDFPageInterpreter(manager, device)
    for page in PDFPage.get_pages(filepath, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    filepath.close()
    device.close()
    retstr.close()
    return text

在我的 PDF 文件中，我有行分隔符 TAB 示例（我相信那是 TAB，因为两个词在同一列单元格中并且分隔符有多个空格）： Hello this is

PDF miner 正在将此行转换为：

    Hello
    this is

预期输出：

Hello this is

有谁知道如何为此 PDFminer 设置额外的分隔符以避免创建新行？

谢谢！

Answer 1

这是一个 PDF 中的一个错误来解决它我只是比较它们的线坐标，您可以在这里找到更多信息：How to extract text and text coordinates from a PDF file?

PDF miner，坏的新行检测

PDF miner, bad new line detection

python

pdfminer