从聚合网站抓取价格

Question

这对某些人来说可能非常简单。但我无法理解它。我正在尝试从网站中提取价格和其他信息。

我正在使用 Rvest 进行抓取。我不是来自 CS 背景，所以我无法理解将要使用的 html 节点的 class 输入。我正在 'Similar Hotels' 部分查找类似酒店的价格。我的代码尝试如下。请让我知道我的代码中的缺点。

    url='http://www.yatra.com/hotels/hotels-in-coorg/club-mahindra-madikeri-coorg'
    
index <- url %>%
    read_html() %>%
    html_nodes("#carousel_one")

count <- index %>%
    html_nodes("span") %>%
    html_text() %>% 

location <- counts %>%
    html_nodes("p") %>%
    html_text()

type <- counts %>%
    html_nodes("a") %>%
    html_text()

我有转机，但它是针对单个节点的。我想在一个命令中获取所有节点。

我的代码明显不对。理想情况下，我正在寻求有关查找正确标签的方法的解释，并 class 此类信息。

我已经阅读了 TNC 条件。

Answer 1

我可以得到代码，但还是缺少一点逻辑。

密码是：

index <- url %>%
    read_html() %>%
    html_nodes("#container .crousel")

fetch <- index %>%
    html_nodes("span") %>%
    html_text()

从聚合网站抓取价格

Web scraping prices from an aggregator sites

r

web-scraping

rvest