使用 Rvest on a Tennis table 来自 Wiki 的网页抓取
Web Scraping using Rvest on a Tennis table from Wiki
我是 R 的初学者。我想了解更多关于 rvest 以及如何从网上抓取的信息。这是维基页面 (https://en.wikipedia.org/wiki/Andy_Murray),下面是 table 我想转移到 R。
使用CSS选择器,我发现特定的table在“.wikitable”上。按照其他网页上的一些教程,这是我使用的代码:
library(rvest)
tennis <- read_html("https://en.wikipedia.org/wiki/Andy_Murray")
trial <- tennis %>% html_nodes(".wikitable") %>% html_table(fill = T)
trial
我无法将结果隔离到我想要的 table。有人可以教我怎么做吗?另一件事,管道是做什么的(%>%)?
你快到了。您提取的是一个列表。要获得所需的元素,您需要使用索引:
trial[[2]]
要进一步清洁它,请使用:
df <- trial[[2]]
df <- df[-1,]
df[,17:20] <- NULL
%>%
被称为 magrittr/dplyr 包中的管道。更多信息 here.
我是 R 的初学者。我想了解更多关于 rvest 以及如何从网上抓取的信息。这是维基页面 (https://en.wikipedia.org/wiki/Andy_Murray),下面是 table 我想转移到 R。
使用CSS选择器,我发现特定的table在“.wikitable”上。按照其他网页上的一些教程,这是我使用的代码:
library(rvest)
tennis <- read_html("https://en.wikipedia.org/wiki/Andy_Murray")
trial <- tennis %>% html_nodes(".wikitable") %>% html_table(fill = T)
trial
我无法将结果隔离到我想要的 table。有人可以教我怎么做吗?另一件事,管道是做什么的(%>%)?
你快到了。您提取的是一个列表。要获得所需的元素,您需要使用索引:
trial[[2]]
要进一步清洁它,请使用:
df <- trial[[2]]
df <- df[-1,]
df[,17:20] <- NULL
%>%
被称为 magrittr/dplyr 包中的管道。更多信息 here.