从 google 电子表格(不是整个 table)上的维基百科获取特定信息

Get specific information from wikipedia on google spreadsheet (not the entire table)

我有一个来自维基百科“主要滚动演员”的 table,我想在 table 中添加一些列,其中包含每个演员的出生日期、活跃年份等。

Lead rolling actors

这是我第一次使用 IMPORTXML 公式,但对于小罗伯特唐尼,我正在尝试以下操作:

-出生: =IMPORTXML(G1!,"//span[@class='bday']")

1965-04-04

-活跃年数: =IMPORTXML(G1!,"//td[@class='infobox-data']")

< td class="infobox-data">1970–至今

在这两种情况下,它都会给我错误。我究竟做错了什么?我查看 https://www.benlcollins.com/spreadsheets/google-sheet-web-scraper/ 以获得一些指导,但找不到我的错误。

根据你的问题和显示的图片,很遗憾,我看不到 Robert Downey Jr 的 URL。但是,如果 URL 应该是 https://en.wikipedia.org/wiki/Robert_Downey_Jr,我认为你的 xpath 是 //span[@class='bday'] returns 1965-04-04。但是,你的 xpath //td[@class='infobox-data'] returns 多个值。

在此答案中,1965-04-041970–present 的值是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr 的 URL 中检索的。

示例 1:

在此示例中,1965-04-04 是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr 中检索到的。

=IMPORTXML("https://en.wikipedia.org/wiki/Robert_Downey_Jr","//span[@class='bday']")

示例 2:

在此示例中,1970–present 是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr 中检索到的。

=IMPORTXML("https://en.wikipedia.org/wiki/Robert_Downey_Jr","//td[@class='infobox-data' and ../th[contains(text(),'active')]]")

注:

  • 虽然我不确定你当前的 URL 是 Robert Downey Jr,例如,再检查一下 URL 怎么样?因为当我使用 https://en.wikipedia.org/wiki/Robert_Downey_Jr 的 URL 时,可以检索到您的预期值。