使用 python 将多个 .html 文件转换为 .txt 文件

converting multi .html file into .txt files using python

我的驱动器上有一个目录,其中有 many.html 个文件。这些文件在使用浏览器打开时包含文本。我有以下代码将一个 .html 转换为 .txt 文件。 如何对所有文件进行迭代并将每个文件另存为 .txt 并使用其原始名称?

提前致谢

from bs4 import BeautifulSoup
markup = open("/content/drive/MyDrive/arc_Articlesww0c5e.html")
soup = BeautifulSoup(markup.read())
markup.close()
f = open("arc_Articlesww0c5e.txt", "w")
f.write(soup.get_text())
f.close()

这可能会让您了解如何继续:

import os
from bs4 import BeautifulSoup

your_dir = "/content/drive/MyDrive"

for file in os.listdir(your_dir):
    if file.endswith((".htm", ".html")):
        with open(os.path.join(your_dir, file)) as markup:
            soup = BeautifulSoup(markup.read())
        with open(file.split(".")[0]+".txt", "w") as f:
            f.write(soup.get_text())