如何使用 table class 名称与 R 报废?
How to scrap with table class name with R?
我正在尝试删除几个网页,特别是页面中的一些 table。
但问题是 table 的位置相对于每一页都在变化。
这是我的代码。
url <- paste0("https://en.wikipedia.org/wiki/2011%E2%80%9312_Welsh_Premier_League")
webpage <- read_html(url)
j<-webpage%>% html_node(xpath='//*[@id="mw-content-text"]/div[1]/table') %>%html_table(fill=T)
这段代码工作正常,但我也想废弃其他季节。 table的位置每个季节都会变化。
我的问题是我发现我想要废弃的 table class 被命名为“wikitable plainrowheaders”,如下所示。我想知道如何使用 table class 名称进行报废。
如何在维基百科页面中删除所有 table table class 名为“wikitable plainrowheaders”的内容?
<table class="wikitable plainrowheaders" style="text-align:center;font-size:100%;">
非常感谢。
既然知道tableclass这个名字,就改一下对应的xpath即可。
library(rvest)
url <- paste0("https://en.wikipedia.org/wiki/2011%E2%80%9312_Welsh_Premier_League")
webpage <- read_html(url)
j <- webpage %>%
html_nodes(xpath="//table[@class='wikitable plainrowheaders']") %>%
html_table(fill=T)
我正在尝试删除几个网页,特别是页面中的一些 table。 但问题是 table 的位置相对于每一页都在变化。 这是我的代码。
url <- paste0("https://en.wikipedia.org/wiki/2011%E2%80%9312_Welsh_Premier_League")
webpage <- read_html(url)
j<-webpage%>% html_node(xpath='//*[@id="mw-content-text"]/div[1]/table') %>%html_table(fill=T)
这段代码工作正常,但我也想废弃其他季节。 table的位置每个季节都会变化。 我的问题是我发现我想要废弃的 table class 被命名为“wikitable plainrowheaders”,如下所示。我想知道如何使用 table class 名称进行报废。 如何在维基百科页面中删除所有 table table class 名为“wikitable plainrowheaders”的内容?
<table class="wikitable plainrowheaders" style="text-align:center;font-size:100%;">
非常感谢。
既然知道tableclass这个名字,就改一下对应的xpath即可。
library(rvest)
url <- paste0("https://en.wikipedia.org/wiki/2011%E2%80%9312_Welsh_Premier_League")
webpage <- read_html(url)
j <- webpage %>%
html_nodes(xpath="//table[@class='wikitable plainrowheaders']") %>%
html_table(fill=T)