从网站上抓取并保存到电子表格中的不同列中
Scrape from website and save into different columns in a spreadsheet
假设有一个网站有一些公司的详细信息列表,例如名称、总部区域、营业额等。我如何抓取该数据并将其填充到不同的列(如名称、营业额)中每行都有一个单独公司的详细信息?
Google 工作表允许您导入 html table 或具有 IMPORTHTML(url, query, index)
功能的列表。
例如,以维基百科页面List of largest companies by revenue为例。
我们想要来自主table的数据,所以我们要做的第一件事就是知道它在页面中占据的索引。为此,我们可以使用document.querySelectorAll('table')
或$$('table')
,从结果可以看出,我们想要的table在数组的第5位,所以在我们的google sheet 我们可以使用:
=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_largest_companies_by_revenue","table",5)
从这里开始,您应该将查询参数更改为list
,然后使用上述方法找到它在页面中占用的索引。无论如何,你总是可以使用 IMPORTXML(url, xpath_query)
, and knowing the XPath 的信息,你可以想出一个类似的解决方案。
假设有一个网站有一些公司的详细信息列表,例如名称、总部区域、营业额等。我如何抓取该数据并将其填充到不同的列(如名称、营业额)中每行都有一个单独公司的详细信息?
Google 工作表允许您导入 html table 或具有 IMPORTHTML(url, query, index)
功能的列表。
例如,以维基百科页面List of largest companies by revenue为例。
我们想要来自主table的数据,所以我们要做的第一件事就是知道它在页面中占据的索引。为此,我们可以使用document.querySelectorAll('table')
或$$('table')
,从结果可以看出,我们想要的table在数组的第5位,所以在我们的google sheet 我们可以使用:
=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_largest_companies_by_revenue","table",5)
从这里开始,您应该将查询参数更改为list
,然后使用上述方法找到它在页面中占用的索引。无论如何,你总是可以使用 IMPORTXML(url, xpath_query)
, and knowing the XPath 的信息,你可以想出一个类似的解决方案。