从网站上抓取并保存到电子表格中的不同列中

Scrape from website and save into different columns in a spreadsheet

假设有一个网站有一些公司的详细信息列表,例如名称、总部区域、营业额等。我如何抓取该数据并将其填充到不同的列(如名称、营业额)中每行都有一个单独公司的详细信息?

Google 工作表允许您导入 html table 或具有 IMPORTHTML(url, query, index) 功能的列表。

例如,以维基百科页面List of largest companies by revenue为例。

我们想要来自主table的数据,所以我们要做的第一件事就是知道它在页面中占据的索引。为此,我们可以使用document.querySelectorAll('table')$$('table'),从结果可以看出,我们想要的table在数组的第5位,所以在我们的google sheet 我们可以使用:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_largest_companies_by_revenue","table",5)

从这里开始,您应该将查询参数更改为list,然后使用上述方法找到它在页面中占用的索引。无论如何,你总是可以使用 IMPORTXML(url, xpath_query), and knowing the XPath 的信息,你可以想出一个类似的解决方案。