我无法访问用于网络抓取的子节点

Question

我正在尝试使用以下代码从网站上抓取玩家信息：

#install required packages
if(!require(pacman))install.packages("pacman")
pacman::p_load('rvest', 'stringi', 'dplyr', 'tidyr', 'measurements', 'reshape2','foreach','doParallel','raster','curl','httr','Iso')

profile_detail<-read_html('https://www.pgatour.com/players/player.01006.john-adams.html#profile')%>%html_node("[class='s-header__bottom']")%>%html_children()

但是这段代码没有给我想要的结果。相反，获取一个节点：

[1] <div class="s-header__no-data">No additional profile information available</div>

不确定如何访问 's-col'

的 div class

这是我要提取的球员信息的片段：

谁能帮我解决这个问题？

提前致谢！

Answer 1

您可以在 html_nodes 中使用 div.s-col :

library(rvest)
url <- 'https://www.pgatour.com/players/player.06197.michael-allen.html'

url %>%
  read_html() %>%
  html_nodes('div.s-col') %>%
  html_text() %>%
  gsub('\h+', ' ', ., perl = TRUE) %>%
  cat

我不确定您希望最终的预期输出如何，但是 returns :

 #Michael Allen 
 #Full Name
 
 
 #6 ft, 0 in
 #183 cm
 #Height
 
 
 #195 lbs
 #89 kg
 #Weight
 
 
 #January 31, 1959
 #Birthday
 
 
 #61
 #AGE
 
 
 #San Mateo, California
 #Birthplace
 
 
 #Scottsdale, Arizona
 #Residence
 
 
 #Wife, Cynthia; Christy (12/8/93), Michelle (6/3/97)
 #Family
 
 
 #University of Nevada (1982, Horticulture) 
 #College
 
 
 #1984
 #Turned Pro
 
 
 #16,963,593
 #Career Earnings
 
 
 #Paradise Valley, AZ, United States
 #City Plays From

请注意，有些玩家在页面上没有他们的个人信息。

我无法访问用于网络抓取的子节点

I cant access sub nodes for web scraping

r

screen

nodes

web-scraping

rvest