如何对 pdf 文件的章节进行分类并分析每章的内容？

Question

我想对 PDF 格式的书中的章节和子章节进行分类和分析。因此，计算单词的数量并检查哪个单词出现的频率和章节。

pip install PyPDF2

import PyPDF2
from PyPDF2 import PdfFileReader

# Creating a pdf file object
pdf = open('C:/Users/Dominik/Desktop/bsc/pdf1.pdf',"rb")
# creating pdf reader object
pdf_reader = PyPDF2.PdfFileReader(pdf)
# checking number of pages in a pdf file
print(pdf_reader.numPages)
print(pdf_reader.getDocumentInfo())
# creating a page object
page = pdf_reader.getPage(0)
# finally extracting text from the page
print(page.extractText())
# Extracting entire PDF
for i in range(pdf_reader.getNumPages()):
   page = pdf_reader.getPage(i)
   a = str(1+pdf_reader.getPageNumber(page))
   print (a)
   page_content = page.extractText()
   print (page_content)
# closing the pdf file
pdf.close()

此代码已经有效。现在我想做更多的分析，比如

将每一章存储在自己的变量中并计算字数。最后，所有内容都应存储在 excel 文件中。

Answer 1

我用 PDF 格式的简历尝试过类似的方法。但我所知道的是以下内容：

PDF 是一种非结构化格式。不可能以结构化的方式从所有 PDF 中提取信息。但是如果你知道 PDF 格式书籍的结构，你可以使用它们的唯一标识来划分章节的标题，就像它们是用粗体或斜体格式写的一样。 This link 可以帮助您提取这些信息。然后您可以遍历该章节，直到它到达下一章节标题。

如何对 pdf 文件的章节进行分类并分析每章的内容？

how can i classify the chapters of a pdf file and analyze the content per chapter?

python

pdf

text-mining

event-log

python-3.x