学习网络抓取..需要一些关于 xpath="/html/body/div[3]/div[3]/div[4]/div/table[5] 使用 xpath 插件的澄清

Question

我正在学习 r 中的网络抓取，并理解 HTML 代码..但这里有点混乱...

代码 1：

url <- "https://en.wikipedia.org/wiki/World_population"
ten_most_df <- read_html(url) 


ten_most_populous <- ten_most_df %>% 
  html_table() %>%
  .[[6]]

代码 2：

url <- "https://en.wikipedia.org/wiki/World_population"
    ten_most_df <- read_html(url)




ten_most_populous <- ten_most_df %>% 
  html_nodes(xpath="/html/body/div[3]/div[3]/div[4]/div/table[5]") %>% html_table()

代码 1 和 2 中使用的方法是否与代码 1 中使用的方法相同，我们正在抓取 6 节点，但是我不清楚代码 2，因为 div[3] 重复了两次。你能澄清一下吗？会有很大帮助.. 谢谢.

Answer 1

body/div[3]/div[3]/div[4] 表示 body 元素的第 3 个 div 个子元素的第 4 个 div 个子元素 div 子元素。

您真的应该通过阅读有关 XPath 的参考书找到答案，而不是通过在 Whosebug 上提问。

学习网络抓取..需要一些关于 xpath="/html/body/div[3]/div[3]/div[4]/div/table[5] 使用 xpath 插件的澄清

Learning web scraping.. need some clarity on xpath="/html/body/div[3]/div[3]/div[4]/div/table[5] using xpath plugin

xpath

r

web-scraping

rvest