R 如何使用 RSelenium 从 StockTwits 收集数据？

Question

我想从平台 StockTwits 上发布的推文中获取一些信息。您可以在此处查看示例推文：https://stocktwits.com/Kndihopefull/message/433815546
我想阅读以下信息：回复数、转发数、点赞数：

我认为 RSelenium-package 可以做到这一点。但是，我的方法并没有真正取得任何进展。有人可以帮助我吗？

library(RSelenium)

url<- "https://stocktwits.com/Kndihopefull/message/433815546"

# RSelenium with Firefox
rD <- RSelenium::remoteDriver(browser="firefox", port=4546L)
remDr <- rD[["client"]]
remDr$navigate(url)
Sys.sleep(4)

# get the page source
web <- remDr$getPageSource()
web <- xml2::read_html(web[[1]])

我想要一个列表（或数据集）作为结果，如下所示：

$Reply
[1] 1

$Reshare
[1] 1

$Like
[1] 7

非常感谢！

Answer 1

要获得所需的信息，我们可以做到，

library(rvest)
library(dplyr)
library(RSelenium)
#launch browser
driver = rsDriver(browser = c("firefox"))
url = "https://stocktwits.com/ArcherUS/message/434172145"

remDr <- driver$client
remDr$navigate(url)


#First we shall get the tags

remDr$getPageSource()[[1]] %>% 
  read_html() %>% html_nodes('.st_3kvJrBm') %>% 
  html_attr('title') 
[1] "Reply"   "Reshare" "Like"    "Share"   "Search" 

#then the number associated with it
remDr$getPageSource()[[1]] %>% 
  read_html() %>% html_nodes('.st_3kvJrBm') %>% 
  html_text()
[1] ""  ""  "2" ""  ""

最后两项 Share 和 Search 将为空。

更快的方法是使用 rvest。

library(rvest)
url = "https://stocktwits.com/ArcherUS/message/434172145"

url %>% 
  read_html() %>% html_nodes('.st_3kvJrBm') %>% 
  html_attr('title') 

url %>% 
  read_html() %>% html_nodes('.st_3kvJrBm') %>% 
  html_text()

R 如何使用 RSelenium 从 StockTwits 收集数据？

R How to web scrap data from StockTwits with RSelenium?

r

web-scraping

rselenium