readxl 如何误读 excel xlsx 文件以及如何修复它?

How is readxl misreading an excel xlsx file and how to fix it?

我正在尝试下载和阅读来自 2016 年堪萨斯州立大学教职工人数的 xlsx 文件。

https://www.k-state.edu/pa/faculty/demographics/total/index.html

创建 tibble 时,某些数字与原始 excel 文件不匹配。

url <- "https://www.k-state.edu/pa/faculty/demographics/total/t2016.xlsx"

download.file(url, destfile = "t2016.xlsx",  mode = "wb")

library(readxl)

kansas_state <- read_xlsx("t2016.xlsx", skip = 165, col_names = FALSE)

gender <- kansas_state[1:4]
names(gender) <- c("COLLEGE", "N", "Male", "F")
gender

我正在阅读 excel sheet 中的最后一个 table,每个大学的总数。

然后如果你打开 excel 文件并查看最后的 table "University Totals," 一些数字不匹配。比如农学院,建筑学院呢?

我也在这里分享了 github public link 这个例子的 rstudio 项目:

https://github.com/AdamUArk/r_readxl_example

此文件中隐藏了 sheet,因此 read_xlsx() 从其中一个 sheet 中读取,而不是您通常看到的 sheet。要阅读您想要的内容,请将 sheet = 'Totals' 添加到 read_xlsx().

的参数中