从 google 电子表格(不是整个 table)上的维基百科获取特定信息
Get specific information from wikipedia on google spreadsheet (not the entire table)
我有一个来自维基百科“主要滚动演员”的 table,我想在 table 中添加一些列,其中包含每个演员的出生日期、活跃年份等。
Lead rolling actors
这是我第一次使用 IMPORTXML 公式,但对于小罗伯特唐尼,我正在尝试以下操作:
-出生: =IMPORTXML(G1!,"//span[@class='bday']")
1965-04-04
-活跃年数: =IMPORTXML(G1!,"//td[@class='infobox-data']")
< td class="infobox-data">1970–至今 td>
在这两种情况下,它都会给我错误。我究竟做错了什么?我查看 https://www.benlcollins.com/spreadsheets/google-sheet-web-scraper/ 以获得一些指导,但找不到我的错误。
根据你的问题和显示的图片,很遗憾,我看不到 Robert Downey Jr
的 URL。但是,如果 URL 应该是 https://en.wikipedia.org/wiki/Robert_Downey_Jr
,我认为你的 xpath 是 //span[@class='bday']
returns 1965-04-04
。但是,你的 xpath //td[@class='infobox-data']
returns 多个值。
在此答案中,1965-04-04
和 1970–present
的值是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr
的 URL 中检索的。
示例 1:
在此示例中,1965-04-04
是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr
中检索到的。
=IMPORTXML("https://en.wikipedia.org/wiki/Robert_Downey_Jr","//span[@class='bday']")
示例 2:
在此示例中,1970–present
是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr
中检索到的。
=IMPORTXML("https://en.wikipedia.org/wiki/Robert_Downey_Jr","//td[@class='infobox-data' and ../th[contains(text(),'active')]]")
注:
- 虽然我不确定你当前的 URL 是
Robert Downey Jr
,例如,再检查一下 URL 怎么样?因为当我使用 https://en.wikipedia.org/wiki/Robert_Downey_Jr
的 URL 时,可以检索到您的预期值。
我有一个来自维基百科“主要滚动演员”的 table,我想在 table 中添加一些列,其中包含每个演员的出生日期、活跃年份等。
Lead rolling actors
这是我第一次使用 IMPORTXML 公式,但对于小罗伯特唐尼,我正在尝试以下操作:
-出生: =IMPORTXML(G1!,"//span[@class='bday']")
1965-04-04
-活跃年数: =IMPORTXML(G1!,"//td[@class='infobox-data']")
< td class="infobox-data">1970–至今 td>
在这两种情况下,它都会给我错误。我究竟做错了什么?我查看 https://www.benlcollins.com/spreadsheets/google-sheet-web-scraper/ 以获得一些指导,但找不到我的错误。
根据你的问题和显示的图片,很遗憾,我看不到 Robert Downey Jr
的 URL。但是,如果 URL 应该是 https://en.wikipedia.org/wiki/Robert_Downey_Jr
,我认为你的 xpath 是 //span[@class='bday']
returns 1965-04-04
。但是,你的 xpath //td[@class='infobox-data']
returns 多个值。
在此答案中,1965-04-04
和 1970–present
的值是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr
的 URL 中检索的。
示例 1:
在此示例中,1965-04-04
是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr
中检索到的。
=IMPORTXML("https://en.wikipedia.org/wiki/Robert_Downey_Jr","//span[@class='bday']")
示例 2:
在此示例中,1970–present
是从 https://en.wikipedia.org/wiki/Robert_Downey_Jr
中检索到的。
=IMPORTXML("https://en.wikipedia.org/wiki/Robert_Downey_Jr","//td[@class='infobox-data' and ../th[contains(text(),'active')]]")
注:
- 虽然我不确定你当前的 URL 是
Robert Downey Jr
,例如,再检查一下 URL 怎么样?因为当我使用https://en.wikipedia.org/wiki/Robert_Downey_Jr
的 URL 时,可以检索到您的预期值。