滚动计算以识别两列之间的不匹配

Rolling computation to identify mismatch between two columns

输入:

我的数据 df 看起来像这样::

TUserId  SUID   mid_sum final_sum
 115      201   7       1
 115      309   8       2
 115      404   9       1
 209      245   10      2
 209      398   10      2
 209      510   10      2
 209      602   10      1
 371      111   11      2
 371      115   11      2
 371      123   11      3
 371      124   11      2

输出:

对于我的输出,我需要这样的东西::

TUserId  SUID   mid_sum final_sum   Status
 115      201   7       1           consistent
 115      309   8       2           consistent
 115      404   9       1           inconsistent
 209      245   10      2           consistent
 209      398   10      2           consistent
 209      510   10      2           consistent
 209      602   10      1           inconsistent
 371      111   11      2           consistent
 371      115   11      2           consistent
 371      123   11      3           inconsistent
 371      124   11      2           consistent
 
要求:

我的要求如下:

期中成绩要求:

1- 当期中成绩较低时,学生的最终成绩(相对于彼此)不可能更高。例如,当期中成绩低于学生 SUID = 404 时,学生 SUID = 309 的期末成绩更高。在这种情况下,我想将 SUID = 404 标记为 inconsistent.

2- 期中成绩相近的学生期末成绩也不可能不同。例如,当学生 SUID = 602 的期中成绩与老师 TUserId = 209 的其他学生相同时,他们的期末成绩较低。同样,学生 SUID = 123 的期中成绩与老师的其他学生 TUserId = 371.

相同时,他们的期末成绩更高

最终分数要求:

1- 但是,相同的 final 分数可以分配给期中分数不同的学生。我意识到这个要求有点令人困惑。只要期中成绩保持不变或有所提高,期末成绩就可以保持不变。但反之则不然,如果那个老师的期中成绩开始下降,那么期末成绩就不能保持不变。

2- 此外,如果中期分数增加,最终分数也会增加(或与之前的值保持一致)。

数据导入dput()

数据框的dput()如下:

dput(df)

structure(list(
TUserId = c(115L, 115L, 115L, 209L, 209L, 209L, 209L, 371L, 371L, 371L, 371L), 
SUID = c(201L, 309L, 404L, 245L, 398L, 510L, 602L, 111L, 115L, 123L, 124L), 
mid_sum = c(7L, 8L, 9L, 10L, 10L, 10L, 10L, 11L, 11L, 11L, 11L),
final_sum = c(1L, 2L, 1L, 2L, 2L, 2L, 1L, 2L, 2L, 3L, 2L)), 
class = "data.frame", row.names = c(NA, -11L))
注:
部分解决方案:

以下解决方案部分满足了我的要求,但没有捕捉到期中成绩相似的学生最终成绩更高的情况。

library(dplyr)
df %>%
  arrange(TUserId, mid_sum) %>%
  group_by(TUserId) %>%
  mutate(
    Status = if_else(
      sign(final_sum - lag(final_sum, default = 0) + lead(final_sum, default = 0)) 
      == sign(mid_sum - lag(mid_sum, default = 0)  + lead(mid_sum, default = 0)),
      "consisent", "inconsistent"
    )
  )

很酷的问题。你的问题解释的很好。

考虑这段代码:

## Rule 1
# we sort by mid sum first, then final sum
# if the cumululative max of the final sum is higher than the current finalsum,
# the mid sum had to be lower

df <- df %>% arrange(mid_sum,final_sum) %>% mutate(inconsistentRule1 = cummax(final_sum)>final_sum)


# Rule 2
# This is a shot in the dark as the inconsitency criteria is a bit fuzzy
# (What if a teacher with only two students on same mid_level assigns different grades,
# which  student is to be considered "inconsistent"? The lower or the higher graded)
# i just used the median, in this case students that deviate from the norm
# are considered the inconsistent ones, works with your example
df <- df %>% group_by(TUserId,mid_sum) %>% mutate(inconsistentRule2= final_sum != median(final_sum))

# combine the rules
df <- df %>% ungroup() %>% 
  mutate(Status=ifelse(
    inconsistentRule1 | inconsistentRule2,
    "inconsistent",
    "consistent"))

# put in order and delete working columns
df %>% arrange(TUserId,SUID) %>%
  select(-c("inconsistentRule1","inconsistentRule2"))

结果如你所愿table