readxl 如何误读 excel xlsx 文件以及如何修复它?
How is readxl misreading an excel xlsx file and how to fix it?
我正在尝试下载和阅读来自 2016 年堪萨斯州立大学教职工人数的 xlsx 文件。
https://www.k-state.edu/pa/faculty/demographics/total/index.html
创建 tibble 时,某些数字与原始 excel 文件不匹配。
url <- "https://www.k-state.edu/pa/faculty/demographics/total/t2016.xlsx"
download.file(url, destfile = "t2016.xlsx", mode = "wb")
library(readxl)
kansas_state <- read_xlsx("t2016.xlsx", skip = 165, col_names = FALSE)
gender <- kansas_state[1:4]
names(gender) <- c("COLLEGE", "N", "Male", "F")
gender
我正在阅读 excel sheet 中的最后一个 table,每个大学的总数。
然后如果你打开 excel 文件并查看最后的 table "University Totals," 一些数字不匹配。比如农学院,建筑学院呢?
我也在这里分享了 github public link 这个例子的 rstudio 项目:
此文件中隐藏了 sheet,因此 read_xlsx()
从其中一个 sheet 中读取,而不是您通常看到的 sheet。要阅读您想要的内容,请将 sheet = 'Totals'
添加到 read_xlsx()
.
的参数中
我正在尝试下载和阅读来自 2016 年堪萨斯州立大学教职工人数的 xlsx 文件。
https://www.k-state.edu/pa/faculty/demographics/total/index.html
创建 tibble 时,某些数字与原始 excel 文件不匹配。
url <- "https://www.k-state.edu/pa/faculty/demographics/total/t2016.xlsx"
download.file(url, destfile = "t2016.xlsx", mode = "wb")
library(readxl)
kansas_state <- read_xlsx("t2016.xlsx", skip = 165, col_names = FALSE)
gender <- kansas_state[1:4]
names(gender) <- c("COLLEGE", "N", "Male", "F")
gender
我正在阅读 excel sheet 中的最后一个 table,每个大学的总数。
然后如果你打开 excel 文件并查看最后的 table "University Totals," 一些数字不匹配。比如农学院,建筑学院呢?
我也在这里分享了 github public link 这个例子的 rstudio 项目:
此文件中隐藏了 sheet,因此 read_xlsx()
从其中一个 sheet 中读取,而不是您通常看到的 sheet。要阅读您想要的内容,请将 sheet = 'Totals'
添加到 read_xlsx()
.