从网站上抓取并保存到电子表格中的不同列中

Question

假设有一个网站有一些公司的详细信息列表，例如名称、总部区域、营业额等。我如何抓取该数据并将其填充到不同的列（如名称、营业额）中每行都有一个单独公司的详细信息？

Answer 1

Google 工作表允许您导入 html table 或具有 IMPORTHTML(url, query, index) 功能的列表。

例如，以维基百科页面List of largest companies by revenue为例。

我们想要来自主table的数据，所以我们要做的第一件事就是知道它在页面中占据的索引。为此，我们可以使用document.querySelectorAll('table')或$$('table')，从结果可以看出，我们想要的table在数组的第5位，所以在我们的google sheet 我们可以使用：

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_largest_companies_by_revenue","table",5)

从这里开始，您应该将查询参数更改为list，然后使用上述方法找到它在页面中占用的索引。无论如何，你总是可以使用 IMPORTXML(url, xpath_query), and knowing the XPath 的信息，你可以想出一个类似的解决方案。

从网站上抓取并保存到电子表格中的不同列中

Scrape from website and save into different columns in a spreadsheet

google-sheets

scrapy

web-scraping