如何在 Python 中删除 PDF 文本提取中的换行符?
How do I delete line break in PDF text extraction in Python?
我使用 PyMuPDF 获取 PDF 中的文本,这是我的代码
import fitz
pdf_document = "KRIP.pdf"
doc = fitz.open(pdf_document)
page1 = doc.loadPage(0)
page1text = page1.get_text()
print("Text from PDF: ", page1text)
输出应该是
KRIPTOGRAFI
但事实证明
KRIPTOGRAFI
“KRIPTOGRAFI”一词后有一个换行符。
有什么办法可以去除吗?
您需要删除末尾的空白。函数 strip()
会为您完成。
您的新代码将是:
import fitz
pdf_document = "KRIP.pdf"
doc = fitz.open(pdf_document)
page1 = doc.loadPage(0)
page1text = page1.get_text().strip()
print("Text from PDF: ", page1text)
我使用 PyMuPDF 获取 PDF 中的文本,这是我的代码
import fitz
pdf_document = "KRIP.pdf"
doc = fitz.open(pdf_document)
page1 = doc.loadPage(0)
page1text = page1.get_text()
print("Text from PDF: ", page1text)
输出应该是
KRIPTOGRAFI
但事实证明
KRIPTOGRAFI
“KRIPTOGRAFI”一词后有一个换行符。 有什么办法可以去除吗?
您需要删除末尾的空白。函数 strip()
会为您完成。
您的新代码将是:
import fitz
pdf_document = "KRIP.pdf"
doc = fitz.open(pdf_document)
page1 = doc.loadPage(0)
page1text = page1.get_text().strip()
print("Text from PDF: ", page1text)