使用 Rvest on a Tennis table 来自 Wiki 的网页抓取

Question

我是 R 的初学者。我想了解更多关于 rvest 以及如何从网上抓取的信息。这是维基页面 (https://en.wikipedia.org/wiki/Andy_Murray)，下面是 table 我想转移到 R。

使用CSS选择器，我发现特定的table在“.wikitable”上。按照其他网页上的一些教程，这是我使用的代码：

library(rvest)
tennis <- read_html("https://en.wikipedia.org/wiki/Andy_Murray")
trial <- tennis %>% html_nodes(".wikitable") %>% html_table(fill = T)
trial

我无法将结果隔离到我想要的 table。有人可以教我怎么做吗？另一件事，管道是做什么的（%>%）？

Answer 1

你快到了。您提取的是一个列表。要获得所需的元素，您需要使用索引：

trial[[2]]

要进一步清洁它，请使用：

df <- trial[[2]]
df <- df[-1,]
df[,17:20] <- NULL

%>% 被称为 magrittr/dplyr 包中的管道。更多信息 here.

使用 Rvest on a Tennis table 来自 Wiki 的网页抓取

Web Scraping using Rvest on a Tennis table from Wiki

r

web-scraping

rvest