从 PDF 文件中提取文本并保留原始布局,Python
Extract text from PDF files and preserve the orginal layout, in Python
我想从 PDF 文件中提取文本,但 PDF 中的文本布局应保持不变,如下图所示。图片显示了 [github.com/JonathanLink/PDFLayoutTextStripper] 的结果。
我尝试了下面的代码,但它没有维护布局。我希望通过使用任何 Python 库(如 PyPDF2、PDFPlumber、PDFminer 等)获得与图像中显示的完全相同的结果。我尝试了所有这些库,但没有得到想要的结果。我需要帮助从 PDF 文件中完全按照图像中所示提取文本。
from pdfminer.high_level import extract_text`
text = extract_text('test.pdf')
print(text)
您可以使用 PDFtotext 包保存 layout/indentation。
import pdftotext
with open("target_file.pdf", "rb") as f:
pdf = pdftotext.PDF(f)
# All pages
for text in pdf:
print(text)
我想从 PDF 文件中提取文本,但 PDF 中的文本布局应保持不变,如下图所示。图片显示了 [github.com/JonathanLink/PDFLayoutTextStripper] 的结果。
from pdfminer.high_level import extract_text`
text = extract_text('test.pdf')
print(text)
您可以使用 PDFtotext 包保存 layout/indentation。
import pdftotext
with open("target_file.pdf", "rb") as f:
pdf = pdftotext.PDF(f)
# All pages
for text in pdf:
print(text)