将 html 表转换为 CSV 的脚本(最好是 python)

Script that converts html tables to CSV (preferably python)

我有大量 html 表要转换为 CSV。将单个表格粘贴到 excel 并将它们另存为 .csv 文件,就像将 html 表格粘贴到简单的在线转换器中一样。但是我有成千上万个单独的表,所以我需要一个可以自动执行转换过程的脚本。

我想知道是否有人对我如何着手做这件事有任何建议? Python 是我唯一熟悉的语言,因此某种 python 脚本将是理想的选择。我搜索过类似的问题,但我发现的所有 python 个例子对我来说都相当复杂,超出了我的基本理解水平。

如有任何建议,我们将不胜感激。

使用pandas。它具有将 html tables 读入数据结构的功能,然后是将该数据结构写入 csv 文件的功能。

import pandas as pd
url = 'http://myurl.com/mypage/'

for i, df in enumerate(pd.read_html(url)):
    df.to_csv('myfile_%s.csv' % i)

请注意,由于 html 页面可能有多个 table,因此获取 table 的函数总是 returns table 的列表s(即使只有一个table)。这就是我在这里使用循环的原因。