使用 Python 读写非 .txt 文件

Reading and writing non .txt files with Python

如果愿意,请帮助我找出更合适的解决以下问题的方法。

我正在为一个应用程序编写代码,该应用程序可以替换文本中的单词,从某种书写方式到另一种书写方式;例如,将所有单词“颜色”替换为“颜色”。

代码正在执行此操作,但仅通过读取和写入 .txt 文件,Python 执行得很清楚。

但是,我希望它能够读取(并最终写入)其他文本格式。所以,我去寻找解决方案,我找到了两个:textract 和 pandoc。 Textract 需要预先安装完整的库和程序列表。

Pandoc只需要你在pip install pypandoc之前安装它自己并使用它,这样看起来更好。 (Pandoc 安装指南,如果你还想在 PDF 上书写,你需要安装 LaTex...)

我的目标是构建一个独立于平台的应用程序。 我的问题是(是):

应用程序用户是否必须在他的机器上安装 Pandoc(最终是 LaTex)才能使用该应用程序?

警告用户他必须在应用程序中仅使用(复制并粘贴到).txt 文件是否更可取(尽管我想这很不专业)?

几 "moons" 之后,我对自己的问题有了答案。 所以,我正在分享它。 (这不是我们都来这里的原因吗?) 该应用程序的代码已完成并且可以正常工作,实际上我最终没有使用 textract 或 pandoc。 这是我使用的模块列表: PyPDF、docx、ezodf、beautifulsoup、ebooklib - 以及其他一些辅助工具。

我很不高兴有这么多进口货。 有人告诉我,我可以只使用 NLTK 库来完成所有这些工作。 在我开始研究这件事之前,有人确认过这一点吗? 谢谢。