PDF miner,坏的新行检测

PDF miner, bad new line detection

我正在使用此代码从 PDF 获取文本数据:

def pdf_to_txt(path):    
    manager = PDFResourceManager()
    retstr = BytesIO()
    layout = LAParams(all_texts=True)
    device = TextConverter(manager, retstr, laparams=layout)
    filepath = open(path, 'rb')
    interpreter = PDFPageInterpreter(manager, device)
    for page in PDFPage.get_pages(filepath, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    filepath.close()
    device.close()
    retstr.close()
    return text

在我的 PDF 文件中,我有行分隔符 TAB 示例(我相信那是 TAB,因为两个词在同一列单元格中并且分隔符有多个空格): Hello this is

PDF miner 正在将此行转换为:

    Hello
    this is

预期输出:

Hello this is

有谁知道如何为此 PDFminer 设置额外的分隔符以避免创建新行?

谢谢!

这是一个 PDF 中的一个错误来解决它我只是比较它们的线坐标,您可以在这里找到更多信息:How to extract text and text coordinates from a PDF file?