学习网络抓取..需要一些关于 xpath="/html/body/div[3]/div[3]/div[4]/div/table[5] 使用 xpath 插件的澄清
Learning web scraping.. need some clarity on xpath="/html/body/div[3]/div[3]/div[4]/div/table[5] using xpath plugin
我正在学习 r 中的网络抓取,并理解 HTML 代码..但这里有点混乱...
代码 1:
url <- "https://en.wikipedia.org/wiki/World_population"
ten_most_df <- read_html(url)
ten_most_populous <- ten_most_df %>%
html_table() %>%
.[[6]]
代码 2:
url <- "https://en.wikipedia.org/wiki/World_population"
ten_most_df <- read_html(url)
ten_most_populous <- ten_most_df %>%
html_nodes(xpath="/html/body/div[3]/div[3]/div[4]/div/table[5]") %>% html_table()
代码 1 和 2 中使用的方法是否与代码 1 中使用的方法相同,我们正在抓取 6 节点,但是我不清楚代码 2,因为 div[3] 重复了两次。你能澄清一下吗?会有很大帮助.. 谢谢.
body/div[3]/div[3]/div[4]
表示 body 元素的第 3 个 div
个子元素的第 4 个 div
个子元素 div
子元素。
您真的应该通过阅读有关 XPath 的参考书找到答案,而不是通过在 Whosebug 上提问。
我正在学习 r 中的网络抓取,并理解 HTML 代码..但这里有点混乱...
代码 1:
url <- "https://en.wikipedia.org/wiki/World_population"
ten_most_df <- read_html(url)
ten_most_populous <- ten_most_df %>%
html_table() %>%
.[[6]]
代码 2:
url <- "https://en.wikipedia.org/wiki/World_population"
ten_most_df <- read_html(url)
ten_most_populous <- ten_most_df %>%
html_nodes(xpath="/html/body/div[3]/div[3]/div[4]/div/table[5]") %>% html_table()
代码 1 和 2 中使用的方法是否与代码 1 中使用的方法相同,我们正在抓取 6 节点,但是我不清楚代码 2,因为 div[3] 重复了两次。你能澄清一下吗?会有很大帮助.. 谢谢.
body/div[3]/div[3]/div[4]
表示 body 元素的第 3 个 div
个子元素的第 4 个 div
个子元素 div
子元素。
您真的应该通过阅读有关 XPath 的参考书找到答案,而不是通过在 Whosebug 上提问。