我需要从 PDF 文件中提取文本并制作一个新的 .txt 文件以放入
I need to extract text from PDF file and make a new .txt file to put in
我需要 PYTHON 脚本的帮助来读取 PDF 文件并复制其中的每个单词并将它们放入一个新的 .txt 文件中(每个单词必须占用 1 行);然后删除重复的单词并在之后计数并在最后一行打印计数
你在 Whosebug 上搜索过答案吗?
在这里您可以找到一些关于如何从 pdf 文件中提取文本的很好的答案(查看 Jakobovski 的答案):
How to extract text from a PDF file?
您可以在此处找到有关 writing/editing/creating.txt 文件的信息:
https://www.guru99.com/reading-and-writing-files-in-python.html
安装这些库。
PyPDF2(将基于文本的简单 PDF 文件转换为 Python 可读的文本)
textract(将重要的扫描 PDF 文件转换为 Python 可读的文本)
nltk(清理短语并将其转换为关键字)
这些库中的每一个都可以在侧终端(在 macOS 上)中使用以下命令安装:
pip install Libraryname
查看此教程 https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f
使用 texttrack 它支持多种类型的文件,包括 PDF。所以 texttrack 更好。
点击这些链接
我需要 PYTHON 脚本的帮助来读取 PDF 文件并复制其中的每个单词并将它们放入一个新的 .txt 文件中(每个单词必须占用 1 行);然后删除重复的单词并在之后计数并在最后一行打印计数
你在 Whosebug 上搜索过答案吗?
在这里您可以找到一些关于如何从 pdf 文件中提取文本的很好的答案(查看 Jakobovski 的答案): How to extract text from a PDF file?
您可以在此处找到有关 writing/editing/creating.txt 文件的信息: https://www.guru99.com/reading-and-writing-files-in-python.html
安装这些库。
PyPDF2(将基于文本的简单 PDF 文件转换为 Python 可读的文本)
textract(将重要的扫描 PDF 文件转换为 Python 可读的文本)
nltk(清理短语并将其转换为关键字)
这些库中的每一个都可以在侧终端(在 macOS 上)中使用以下命令安装:
pip install Libraryname
查看此教程 https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f
使用 texttrack 它支持多种类型的文件,包括 PDF。所以 texttrack 更好。
点击这些链接