使用应用函数将数据框中基于月份的值替换为 r 中另一列中的值

Replace values based on months in a dataframe with values in another column in r, using apply functions

我正在处理降水数据的时间序列,并尝试使用中位数插补法将所有 0 值数据点替换为 [=14] 相应月份的所有数据点的中位数=] 值被记录。

我有两个数据框,一个是原始降水数据:

 > head(df.m)
       prcp       date
1 121.00485 1975-01-31
2 122.41667 1975-02-28
3  82.74026 1975-03-31
4 104.63514 1975-04-30
5  57.46667 1975-05-31
6  38.97297 1975-06-30

还有一个月度值的中位数:

> medians
   Group.1         x
1       01 135.90680
2       02 123.52613
3       03 113.09841
4       04  98.10044
5       05  75.21976
6       06  57.47287
7       07  54.16667
8       08  45.57653
9       09  77.87740
10      10 103.25179
11      11 124.36795
12      12 131.30695

以下是我利用第一个答案得出的当前解决方案 here:

df.m[,"prcp"] <- sapply(df.m[,"prcp"], function(y) ifelse(y==0, medians$x,y))

这没有用,因为它只应用 df 的第一个值 medians$Group.1,即一月份 (01)。 如何获取值以便应用相应月份的正确中位数?

我尝试解决的另一种方法是通过以下方法:

df.m[,"prcp"] <- sapply(medians$Group.1, function(y)
                 ifelse(df.m[format.Date(df.m$date, "%m") == y & 
                 df.m$prcp == 0, "prcp"], medians[medians$Group.1 == y,"x"], 
                 df.m[,"prcp"]))   

上述函数的描述 - 此函数测试并 returns df.m[,"prcp"] 中存在零值的每个月的零数量 这里的问题与第一个解决方案相同,但它按月 return 所有 0 值(如果只执行 sapply() 部分)。

如何根据数据月份用 medians df 中相应的中位数替换 df.m$prcp 中的所有 0

抱歉,如果这是一个基本问题,我在这里有点新手。任何帮助将不胜感激。

我创建了具有一些零值的小型数据集并添加了一行代码:

#create sample data    
prcp <- c(1.5,0.0,0.0,2.1)
date <- c(01,02,03,04)
x <- c(1.11,2.22,3.33,4.44)

df <- data.frame(prcp,date)
grp <- data.frame(x,date)

#Make the assignment
df[df$prcp == 0,]$prcp <- grp[df$prcp == 0,]$x

一个dplyr版本,不依赖于原始顺序。这使用略微修改的测试数据来显示零和多个年份的替换

require(dplyr)

## test data with zeroes - extended for addtional years
df.m <- read.delim(text="
i prcp date
1 121.00485 1975-01-31
2 122.41667 1975-02-28
3 82.74026 1975-03-31
4 104.63514 1975-04-30
5 57.46667 1975-05-31
6 38.97297 1975-06-30
7 0 1976-06-30
8 0 1976-07-31
9 70 1976-08-31
", sep="", stringsAsFactors = FALSE)

medians <- read.delim(text="
i month x
1       01 135.90680
2       02 123.52613
3       03 113.09841
4       04  98.10044
5       05  75.21976
6       06  57.47287
7       07  54.16667
8       08  45.57653
9       09  77.87740
10      10 103.25179
11      11 124.36795
12      12 131.30695
", sep = "", stringsAsFactors = FALSE, strip.white = TRUE)

# extract the month as integer
df.m$month = as.integer(substr(df.m$date,6,7))

# match to medians by joining
result <- df.m %>% 
  inner_join(medians, by='month') %>%
  mutate(prcp = ifelse(prcp == 0, x, prcp)) %>%
  select(prcp, date)

result

产量

       prcp       date
1 121.00485 1975-01-31
2 122.41667 1975-02-28
3  82.74026 1975-03-31
4 104.63514 1975-04-30
5  57.46667 1975-05-31
6  38.97297 1975-06-30
7  57.47287 1976-06-30
8  54.16667 1976-07-31
9  70.00000 1976-08-31

考虑通过month/group合并两个数据框,然后用ifelse计算:

# MERGE TWO FRAMES
df.m$month <- format(df.m$date, "%m")
df.merge <- merge(df.m, medians, by.x="month", by.y="Group.1")

# CONDITIONAL CALCULATION
df.merge$prcp <- ifelse(df.merge$prcp == 0, df.merge$x, df.merge$prcp)

# RETURN BACK TO ORIGINAL STRUCTURE
df.m <- df.merge[names(df.m)]