我需要从 PDF 文件中提取文本并制作一个新的 .txt 文件以放入

I need to extract text from PDF file and make a new .txt file to put in

我需要 PYTHON 脚本的帮助来读取 PDF 文件并复制其中的每个单词并将它们放入一个新的 .txt 文件中(每个单词必须占用 1 行);然后删除重复的单词并在之后计数并在最后一行打印计数

你在 Whosebug 上搜索过答案吗?

在这里您可以找到一些关于如何从 pdf 文件中提取文本的很好的答案(查看 Jakobovski 的答案): How to extract text from a PDF file?

您可以在此处找到有关 writing/editing/creating.txt 文件的信息: https://www.guru99.com/reading-and-writing-files-in-python.html

安装这些库。

PyPDF2(将基于文本的简单 PDF 文件转换为 Python 可读的文本)

textract(将重要的扫描 PDF 文件转换为 Python 可读的文本)

nltk(清理短语并将其转换为关键字)

这些库中的每一个都可以在侧终端(在 macOS 上)中使用以下命令安装:

pip install Libraryname

查看此教程 https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f

使用 texttrack 它支持多种类型的文件,包括 PDF。所以 texttrack 更好。

点击这些链接

https://github.com/deanmalmgren/textract

https://textract.readthedocs.io/en/latest/