从 google 电子表格（不是整个 table）上的维基百科获取特定信息

Question

我有一个来自维基百科“主要滚动演员”的 table，我想在 table 中添加一些列，其中包含每个演员的出生日期、活跃年份等。

Lead rolling actors

这是我第一次使用 IMPORTXML 公式，但对于小罗伯特唐尼，我正在尝试以下操作：

-出生: =IMPORTXML(G1!,"//span[@class='bday']")

1965-04-04

-活跃年数: =IMPORTXML(G1!,"//td[@class='infobox-data']")

< td class="infobox-data">1970–至今

在这两种情况下，它都会给我错误。我究竟做错了什么？我查看 https://www.benlcollins.com/spreadsheets/google-sheet-web-scraper/ 以获得一些指导，但找不到我的错误。

Answer 1

根据你的问题和显示的图片，很遗憾，我看不到 Robert Downey Jr 的 URL。但是，如果 URL 应该是 https://en.wikipedia.org/wiki/Robert_Downey_Jr，我认为你的 xpath 是 //span[@class='bday'] returns 1965-04-04。但是，你的 xpath //td[@class='infobox-data'] returns 多个值。

在此答案中，1965-04-04 和 1970–present 的值是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr 的 URL 中检索的。

示例 1：

在此示例中，1965-04-04 是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr 中检索到的。

=IMPORTXML("https://en.wikipedia.org/wiki/Robert_Downey_Jr","//span[@class='bday']")

示例 2：

在此示例中，1970–present 是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr 中检索到的。

=IMPORTXML("https://en.wikipedia.org/wiki/Robert_Downey_Jr","//td[@class='infobox-data' and ../th[contains(text(),'active')]]")

注：

虽然我不确定你当前的 URL 是 Robert Downey Jr，例如，再检查一下 URL 怎么样？因为当我使用 https://en.wikipedia.org/wiki/Robert_Downey_Jr 的 URL 时，可以检索到您的预期值。

从 google 电子表格（不是整个 table）上的维基百科获取特定信息

Get specific information from wikipedia on google spreadsheet (not the entire table)

wikipedia

google-sheets

web-scraping

google-sheets-formula

示例 1：

示例 2：

注：