如何在 R 中使用 RSelenium 抓取文本?
How to scrape text using RSelenium in R?
我想使用包 RSelenium 从站点 http://stats.statbroadcast.com/statmonitr/?id=102197 中抓取文本 "VIRGINIA TECH"。
我想抓取的特定文本的 css 选择器是:
.valigntop:nth-child(1) .width6-3-4.marginr
打开远程驱动程序并导航到我尝试的站点后:
webElem <- remDr$findElement(using = "css selector", '.valigntop:nth-child(1) .width6-3-4.marginr')
doc <- remDr$getPageSource()[[1]]
current_doc <- read_html(doc)
current_doc <- html_text(current_doc)
这returns一大段文字,不是我想要的文字"VIRGINIA TECH"。
刮完后我想要什么:
current_doc
[1] "VIRGINIA TECH"
如有任何帮助,我们将不胜感激。如果需要任何进一步的信息,请告诉我。
读完这篇link
我发现这非常适合抓取我想要的文本。
webElems <- remDr$findElements(using = 'css selector', ".valigntop:nth-child(1) .width6-3-4.marginr")
current_doc <- unlist(lapply(webElems, function(x){x$getElementText()}))
结果:
current_doc
[1] "VIRGINIA TECH"
简单的一个。
`webElems <- unlist(remDr$findElements(using = 'css selector', ".valigntop:nth-child(1) .width6-3-4.marginr")$getElementText())`
这个也行!!
我想使用包 RSelenium 从站点 http://stats.statbroadcast.com/statmonitr/?id=102197 中抓取文本 "VIRGINIA TECH"。
我想抓取的特定文本的 css 选择器是:
.valigntop:nth-child(1) .width6-3-4.marginr
打开远程驱动程序并导航到我尝试的站点后:
webElem <- remDr$findElement(using = "css selector", '.valigntop:nth-child(1) .width6-3-4.marginr')
doc <- remDr$getPageSource()[[1]]
current_doc <- read_html(doc)
current_doc <- html_text(current_doc)
这returns一大段文字,不是我想要的文字"VIRGINIA TECH"。
刮完后我想要什么:
current_doc
[1] "VIRGINIA TECH"
如有任何帮助,我们将不胜感激。如果需要任何进一步的信息,请告诉我。
读完这篇link 我发现这非常适合抓取我想要的文本。
webElems <- remDr$findElements(using = 'css selector', ".valigntop:nth-child(1) .width6-3-4.marginr")
current_doc <- unlist(lapply(webElems, function(x){x$getElementText()}))
结果:
current_doc
[1] "VIRGINIA TECH"
简单的一个。
`webElems <- unlist(remDr$findElements(using = 'css selector', ".valigntop:nth-child(1) .width6-3-4.marginr")$getElementText())`
这个也行!!