我需要从 PDF 文件中提取文本并制作一个新的 .txt 文件以放入

Question

我需要 PYTHON 脚本的帮助来读取 PDF 文件并复制其中的每个单词并将它们放入一个新的 .txt 文件中（每个单词必须占用 1 行）；然后删除重复的单词并在之后计数并在最后一行打印计数

Answer 1

你在 Whosebug 上搜索过答案吗？

在这里您可以找到一些关于如何从 pdf 文件中提取文本的很好的答案（查看 Jakobovski 的答案）： How to extract text from a PDF file?

您可以在此处找到有关 writing/editing/creating.txt 文件的信息： https://www.guru99.com/reading-and-writing-files-in-python.html

Answer 2

安装这些库。

PyPDF2（将基于文本的简单 PDF 文件转换为 Python 可读的文本）

textract（将重要的扫描 PDF 文件转换为 Python 可读的文本）

nltk（清理短语并将其转换为关键字）

这些库中的每一个都可以在侧终端（在 macOS 上）中使用以下命令安装：

pip install Libraryname

使用 texttrack 它支持多种类型的文件，包括 PDF。所以 texttrack 更好。

点击这些链接

I need to extract text from PDF file and make a new .txt file to put in