从 python 中的 html 个文件中删除表格
Remove tables from html files in python
我想从 html 文件中删除所有表格,即我想要一份 html 文件的副本,其中不包含任何表格 [不是从文件中提取表格,或重新格式化等]。
我正在考虑使用正则表达式,形式为:
html_without_tables = re.sub(r"(?s)(?i)\<table .*\<\/table\>, " ", table)
然而,有无数帖子说不要用正则表达式解析 html,这让我有点不情愿(虽然不确定会引起什么问题)。我猜 Beautifulsoup 一定能做到,但不确定怎么做。
使用 BeautifulSoup,这基本上就像找到所有 table
标签并在每个标签上调用 .extract()
一样简单:
for table in soup.find_all("table"):
table.extract()
我想从 html 文件中删除所有表格,即我想要一份 html 文件的副本,其中不包含任何表格 [不是从文件中提取表格,或重新格式化等]。
我正在考虑使用正则表达式,形式为:
html_without_tables = re.sub(r"(?s)(?i)\<table .*\<\/table\>, " ", table)
然而,有无数帖子说不要用正则表达式解析 html,这让我有点不情愿(虽然不确定会引起什么问题)。我猜 Beautifulsoup 一定能做到,但不确定怎么做。
使用 BeautifulSoup,这基本上就像找到所有 table
标签并在每个标签上调用 .extract()
一样简单:
for table in soup.find_all("table"):
table.extract()