PDF miner,坏的新行检测
PDF miner, bad new line detection
我正在使用此代码从 PDF 获取文本数据:
def pdf_to_txt(path):
manager = PDFResourceManager()
retstr = BytesIO()
layout = LAParams(all_texts=True)
device = TextConverter(manager, retstr, laparams=layout)
filepath = open(path, 'rb')
interpreter = PDFPageInterpreter(manager, device)
for page in PDFPage.get_pages(filepath, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
filepath.close()
device.close()
retstr.close()
return text
在我的 PDF 文件中,我有行分隔符 TAB 示例(我相信那是 TAB,因为两个词在同一列单元格中并且分隔符有多个空格):
Hello this is
PDF miner 正在将此行转换为:
Hello
this is
预期输出:
Hello this is
有谁知道如何为此 PDFminer 设置额外的分隔符以避免创建新行?
谢谢!
这是一个 PDF 中的一个错误来解决它我只是比较它们的线坐标,您可以在这里找到更多信息:How to extract text and text coordinates from a PDF file?
我正在使用此代码从 PDF 获取文本数据:
def pdf_to_txt(path):
manager = PDFResourceManager()
retstr = BytesIO()
layout = LAParams(all_texts=True)
device = TextConverter(manager, retstr, laparams=layout)
filepath = open(path, 'rb')
interpreter = PDFPageInterpreter(manager, device)
for page in PDFPage.get_pages(filepath, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
filepath.close()
device.close()
retstr.close()
return text
在我的 PDF 文件中,我有行分隔符 TAB 示例(我相信那是 TAB,因为两个词在同一列单元格中并且分隔符有多个空格):
Hello this is
PDF miner 正在将此行转换为:
Hello
this is
预期输出:
Hello this is
有谁知道如何为此 PDFminer 设置额外的分隔符以避免创建新行?
谢谢!
这是一个 PDF 中的一个错误来解决它我只是比较它们的线坐标,您可以在这里找到更多信息:How to extract text and text coordinates from a PDF file?