使用循环计算两个数据矩阵的误差
Calculate errors from two data matrices using loops
我有两个相同维度的数据矩阵,让一个矩阵用 A 表示,另一个用 B 表示维度 24*365 其中 24 表示小时数,365 表示天数(意味着每个矩阵具有一年的每小时数据)。假设我选择一天,例如星期日,假设它在两个矩阵的第 3 列中。同样,我从两个矩阵中选择周日的所有剩余列,因此我从周日的每个矩阵 A 和 B 中获得两个子矩阵。然后我将每个子矩阵作为一个向量,并计算这两个向量的均方误差和百分比均方误差。类似地,对一周的剩余几天重复相同的过程。我的问题是,任何人都可以使用循环来完成整个过程,即每天从两个矩阵 A 和 B 中选择子矩阵的循环。然后将每个子矩阵作为一个向量,分别计算每一天的均方误差和百分比均方误差。
我尝试用 C 和 D 表示的任意两个矩阵的示例手动解释我的问题,但由于我的原始尺寸很大数据矩阵,子矩阵比较多,手工操作比较费时
C <- matrix(16:155, ncol=14, byrow=T)
D<- matrix(50:189,ncol=14, byrow=T)
sub_C1 <- C[,c(1+(0:6)*2)]
sub_D1 <- D[,c(1+(0:6)*2)]
sub_C2 <- C[,c(2+(0:6)*2)]
sub_D2 <- D[,c(2+(0:6)*2)]
sub_C3 <- C[,c(1+(0:4)*3)]
sub_D3 <- D[,c(1+(0:4)*3)]
################mean square error################
mse_1 <- mean(abs(as.vector(sub_C1)-as.vector(sub_D1)))
mse_2 <- mean(abs(as.vector(sub_C2)-as.vector(sub_D2)))
mse_3 <- mean(abs(as.vector(sub_C3)-as.vector(sub_D3)))
################## mean percentage absolute error############
mape_1 <- mean(abs(as.vector(sub_C1)-as.vector(sub_D1))/as.vector(sub_C1))
mape_2 <- mean(abs(as.vector(sub_C2)-as.vector(sub_D2))/as.vector(sub_C2))
mape_3 <- mean(abs(as.vector(sub_C3)-as.vector(sub_D3))/as.vector(sub_C3))
#############################################################
有人可以通过循环从每个矩阵 C 和 D 中选择相同的子矩阵,并计算每个子矩阵的误差吗?分开。
因为很多人宣称 authors/developers 经常说 as R is vectorised, loops in R are mostly avoidable
。这里也不需要使用循环。还有一件事 - +
或 -
等二元运算已经矢量化,因此您无需将矩阵显式转换为矢量 as.vector
。
我认为您可以使用 purrr::map_df
,详见下文,这将为您提供 7 天的类似结构的数据框。然而,第一行将对应于一年中的第一天(矩阵)。
策略说明-
- 将您想要的
n
存储在变量 n
中。这里你想要 7
个分区所以我存储了 n <- 7
- 生成一个序列 0 到
n-1
所以我使用 seq(n) - 1
作为第一个参数。
- 现在对列号
%%
使用模除以在每次迭代中获取每个 n
行。例如8 %% 7
给出 1
并且类似地 15 %% 7
也给出 1
所以每个 7
行都会出现在各自的分区中。
- 对于分区,我们分别对
C
和 D
使用 C[, seq(ncol(C)) %% n == .x]
expression/formula。 .x
是 map
函数中的第一个参数。这将生成7个分区。
- 检查这个
C[, seq(ncol(C)) %% 7 == 2]
[,1] [,2]
[1,] 17 24
[2,] 31 38
[3,] 45 52
[4,] 59 66
[5,] 73 80
[6,] 87 94
[7,] 101 108
[8,] 115 122
[9,] 129 136
[10,] 143 150
- 您会注意到第 2 行和第 8 行已按该表达式进行分区。
- 将这些中间分区存储在临时变量中(在 {} 内)
x1
和 x2
(每个矩阵一个)
- 在另外两个中间变量中说
y1
和 y2
根据给定的公式计算 mse
和 mape
(此处使用 x1 和 x2)
- 由于我们正在生成数据帧作为输出,因此我们需要在此处
setNames
,最后在 {}
内
我希望语法现在已经很清楚了。
library(tidyverse)
C <- matrix(16:155, ncol=14, byrow=T)
D <- matrix(50:189,ncol=14, byrow=T)
#number of partitions you desire
n <- 7 # every 7th column
purrr::map_df(seq(n) - 1, ~{x1 <- C[, seq(ncol(C)) %% n == .x]; x2 <- D[, seq(ncol(D)) %% n == .x];
y1 <- mean(abs(x1 - x2)); y2 <- mean(abs(x1 - x2)/x1);
setNames(c(.x+1, y1, y2), c('day', 'mse', 'mape'))})
#> # A tibble: 7 x 3
#> day mse mape
#> <dbl> <dbl> <dbl>
#> 1 1 34 0.520
#> 2 2 34 0.604
#> 3 3 34 0.588
#> 4 4 34 0.572
#> 5 5 34 0.558
#> 6 6 34 0.545
#> 7 7 34 0.532
但是,如果您只想使用 baseR,则可以将以下列表作为具有 7 个元素的输出,每天 1 个。语法解释。
- 这里的策略与
purrr
相似。这里公式和输入向量参数已经交换了位置(根据这些函数的设计)。
- 由于我们要生成列表作为输出,因此我们将在 {} 之外使用 `setNames(),即 function/formula 参数。
C <- matrix(16:155, ncol=14, byrow=T)
D <- matrix(50:189,ncol=14, byrow=T)
#number of partitions you desire
n <- 7 # every 7th column
Map(\(.x) {x1 <- C[, seq(ncol(C)) %% n == .x]; x2 <- D[, seq(ncol(D)) %% n == .x];
y1 <- mean(abs(x1 - x2)); y2 <- mean(abs(x1 - x2)/x1);
setNames(c( y1, y2), c('mse', 'mape'))}, seq(n) - 1) |> setNames(paste0('Day', seq(n)))
#> $Day1
#> mse mape
#> 34.0000000 0.5202581
#>
#> $Day2
#> mse mape
#> 34.0000000 0.6044914
#>
#> $Day3
#> mse mape
#> 34.0000000 0.5878023
#>
#> $Day4
#> mse mape
#> 34.00000 0.57236
#>
#> $Day5
#> mse mape
#> 34.0000000 0.5580051
#>
#> $Day6
#> mse mape
#> 34.0000000 0.5446064
#>
#> $Day7
#> mse mape
#> 34.0000000 0.5320546
提醒一句-作为1 %% 7 = 1 (and not 0)
,第二列将被视为第 1 天,直到第七列将被视为第 1 天,第一列将被视为第 7 天
我有两个相同维度的数据矩阵,让一个矩阵用 A 表示,另一个用 B 表示维度 24*365 其中 24 表示小时数,365 表示天数(意味着每个矩阵具有一年的每小时数据)。假设我选择一天,例如星期日,假设它在两个矩阵的第 3 列中。同样,我从两个矩阵中选择周日的所有剩余列,因此我从周日的每个矩阵 A 和 B 中获得两个子矩阵。然后我将每个子矩阵作为一个向量,并计算这两个向量的均方误差和百分比均方误差。类似地,对一周的剩余几天重复相同的过程。我的问题是,任何人都可以使用循环来完成整个过程,即每天从两个矩阵 A 和 B 中选择子矩阵的循环。然后将每个子矩阵作为一个向量,分别计算每一天的均方误差和百分比均方误差。 我尝试用 C 和 D 表示的任意两个矩阵的示例手动解释我的问题,但由于我的原始尺寸很大数据矩阵,子矩阵比较多,手工操作比较费时
C <- matrix(16:155, ncol=14, byrow=T)
D<- matrix(50:189,ncol=14, byrow=T)
sub_C1 <- C[,c(1+(0:6)*2)]
sub_D1 <- D[,c(1+(0:6)*2)]
sub_C2 <- C[,c(2+(0:6)*2)]
sub_D2 <- D[,c(2+(0:6)*2)]
sub_C3 <- C[,c(1+(0:4)*3)]
sub_D3 <- D[,c(1+(0:4)*3)]
################mean square error################
mse_1 <- mean(abs(as.vector(sub_C1)-as.vector(sub_D1)))
mse_2 <- mean(abs(as.vector(sub_C2)-as.vector(sub_D2)))
mse_3 <- mean(abs(as.vector(sub_C3)-as.vector(sub_D3)))
################## mean percentage absolute error############
mape_1 <- mean(abs(as.vector(sub_C1)-as.vector(sub_D1))/as.vector(sub_C1))
mape_2 <- mean(abs(as.vector(sub_C2)-as.vector(sub_D2))/as.vector(sub_C2))
mape_3 <- mean(abs(as.vector(sub_C3)-as.vector(sub_D3))/as.vector(sub_C3))
#############################################################
有人可以通过循环从每个矩阵 C 和 D 中选择相同的子矩阵,并计算每个子矩阵的误差吗?分开。
因为很多人宣称 authors/developers 经常说 as R is vectorised, loops in R are mostly avoidable
。这里也不需要使用循环。还有一件事 - +
或 -
等二元运算已经矢量化,因此您无需将矩阵显式转换为矢量 as.vector
。
我认为您可以使用 purrr::map_df
,详见下文,这将为您提供 7 天的类似结构的数据框。然而,第一行将对应于一年中的第一天(矩阵)。
策略说明-
- 将您想要的
n
存储在变量n
中。这里你想要7
个分区所以我存储了n <- 7
- 生成一个序列 0 到
n-1
所以我使用seq(n) - 1
作为第一个参数。 - 现在对列号
%%
使用模除以在每次迭代中获取每个n
行。例如8 %% 7
给出1
并且类似地15 %% 7
也给出1
所以每个7
行都会出现在各自的分区中。 - 对于分区,我们分别对
C
和D
使用C[, seq(ncol(C)) %% n == .x]
expression/formula。.x
是map
函数中的第一个参数。这将生成7个分区。 - 检查这个
C[, seq(ncol(C)) %% 7 == 2]
[,1] [,2]
[1,] 17 24
[2,] 31 38
[3,] 45 52
[4,] 59 66
[5,] 73 80
[6,] 87 94
[7,] 101 108
[8,] 115 122
[9,] 129 136
[10,] 143 150
- 您会注意到第 2 行和第 8 行已按该表达式进行分区。
- 将这些中间分区存储在临时变量中(在 {} 内)
x1
和x2
(每个矩阵一个) - 在另外两个中间变量中说
y1
和y2
根据给定的公式计算mse
和mape
(此处使用 x1 和 x2) - 由于我们正在生成数据帧作为输出,因此我们需要在此处
setNames
,最后在{}
内
我希望语法现在已经很清楚了。
library(tidyverse)
C <- matrix(16:155, ncol=14, byrow=T)
D <- matrix(50:189,ncol=14, byrow=T)
#number of partitions you desire
n <- 7 # every 7th column
purrr::map_df(seq(n) - 1, ~{x1 <- C[, seq(ncol(C)) %% n == .x]; x2 <- D[, seq(ncol(D)) %% n == .x];
y1 <- mean(abs(x1 - x2)); y2 <- mean(abs(x1 - x2)/x1);
setNames(c(.x+1, y1, y2), c('day', 'mse', 'mape'))})
#> # A tibble: 7 x 3
#> day mse mape
#> <dbl> <dbl> <dbl>
#> 1 1 34 0.520
#> 2 2 34 0.604
#> 3 3 34 0.588
#> 4 4 34 0.572
#> 5 5 34 0.558
#> 6 6 34 0.545
#> 7 7 34 0.532
但是,如果您只想使用 baseR,则可以将以下列表作为具有 7 个元素的输出,每天 1 个。语法解释。
- 这里的策略与
purrr
相似。这里公式和输入向量参数已经交换了位置(根据这些函数的设计)。 - 由于我们要生成列表作为输出,因此我们将在 {} 之外使用 `setNames(),即 function/formula 参数。
C <- matrix(16:155, ncol=14, byrow=T)
D <- matrix(50:189,ncol=14, byrow=T)
#number of partitions you desire
n <- 7 # every 7th column
Map(\(.x) {x1 <- C[, seq(ncol(C)) %% n == .x]; x2 <- D[, seq(ncol(D)) %% n == .x];
y1 <- mean(abs(x1 - x2)); y2 <- mean(abs(x1 - x2)/x1);
setNames(c( y1, y2), c('mse', 'mape'))}, seq(n) - 1) |> setNames(paste0('Day', seq(n)))
#> $Day1
#> mse mape
#> 34.0000000 0.5202581
#>
#> $Day2
#> mse mape
#> 34.0000000 0.6044914
#>
#> $Day3
#> mse mape
#> 34.0000000 0.5878023
#>
#> $Day4
#> mse mape
#> 34.00000 0.57236
#>
#> $Day5
#> mse mape
#> 34.0000000 0.5580051
#>
#> $Day6
#> mse mape
#> 34.0000000 0.5446064
#>
#> $Day7
#> mse mape
#> 34.0000000 0.5320546
提醒一句-作为1 %% 7 = 1 (and not 0)
,第二列将被视为第 1 天,直到第七列将被视为第 1 天,第一列将被视为第 7 天