导入XLS, readxl / gdata 带入DF带NA

Import XLS, readxl / gdata bring in DF with NA

我正在尝试将此 .xls 文件导入 R:https://www.reit.com/sites/default/files/returns/MonthlyHistoricalReturns.xls

我试过直接从 Windows 机器上的 url 导入它。我已经 运行 解决了 https 与 http 问题以及 Windows 的 perl 问题。为了解决这个问题,我尝试在 ubuntu 上 运行 并先下载文件。

我最近两次尝试使用 readxl 和 gdata 都生成了一个数据框,尽管其中都没有任何数据。没有错误消息。

NAREIT <- readxl::read_xls("~/Downloads/MonthlyHistoricalReturns.xls")

这会产生一个变量的 38 个观测值,全部为 NA。

NAREIT <- gdata::read.xls("~/Downloads/MonthlyHistoricalReturns.xls")

而这个产生 1 个变量的 0 个观测值,"No data available in table" 是唯一单元格内写入的文本。

该文件确实很丑,有多个不需要的 header 行、合并的单元格、冻结的视图等。我已经尝试指定范围、列、行、要跳过的行、col 名称等- -我能从 readxl 和 gdata 文档中想到的一切。

我可以只剪切我需要的范围,另存为 CSV,然后使用它。但是,由于我很可能不得不定期回到这里,所以我正在寻找打开此文件的“正确”方式。非常感谢任何想法。

看起来有好几行 header,所以您需要弄清楚您想要什么作为 header,或者实际查阅一些关于堆栈溢出的页面,这些页面向您展示如何处理 2 行 headers.

反正我这样导入就好了,好像就好了

library(readxl)
MonthlyHistoricalReturns <- read_excel("MonthlyHistoricalReturns.xls", sheet = "Index Data", skip = 7)

我跳到第 7 行开始你的 header 那里