应用具有时间元素的函数
Applying a function with time elements
我有一个数据框,显示许多长期合约。我想做两个计算。
1) 计算合同的每个月有多少小时,并将其乘以成本和数量
2)并获取每组数据框中返回的数据。
数据:
df <- structure(list(Fromdate = structure(c(1388530800, 1388530800,
1388530800, 1388530800, 1388530800, 1388530800, 1388530800, 1388530800,
1388530800, 1420066800, 1388530800, 1388530800, 1388530800, 1388530800,
1420066800), class = c("POSIXct", "POSIXt"), tzone = "CET"),
Todate = structure(c(1419980400, 1419980400, 1419980400,
1419980400, 1419980400, 1419980400, 1419980400, 1419980400,
1419980400, 1451516400, 1419980400, 1419980400, 1419980400,
1419980400, 1451516400), class = c("POSIXct", "POSIXt"), tzone = "CET"),
Cost = c(1.58, 1.58, 1.58, 1.58, 1.58, 1.58, 1.58, 1.58,
1.58, 1.58, 1.58, 1.58, 1.58, 1.58, 1.58), Quantity = c(0.112311303786473,
0.0205773161568493, 0.0493657482020549, 0.0437536029132876,
0.0278005475976713, 0.0295483138287671, 0.066499635323105,
0.066499635323105, 0.733925139981052, 0.733925139981051,
0.1067060088379, 0.436262087700001, 0.0667432627739724, 0.0925740588127852,
0.0925740588127855), Group = structure(c(1L, 1L, 1L, 1L,
1L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L), .Label = c("A",
"B", "C"), class = "factor")), class = "data.frame", row.names = c(NA,
-15L))
1) 我想做的计算,只是一个应用:
table(
format(seq.POSIXt(df$Fromdate[1], to = df$Todate[1], by = "hour"), "%Y-%m")
) * df$Cost[1] * df$Quantity[1]
2014-01 2014-02 2014-03 2014-04 2014-05 2014-06 2014-07 2014-08 2014-09 2014-10 2014-11 2014-12
132.0242 119.2476 131.8467 127.7653 132.0242 127.7653 132.0242 132.0242 127.7653 132.2016 127.7653 127.9428
但是,对于我这辈子,我无法将它应用到 lapply 或任何 purrr 函数中。
2) 最后我还想按组对它进行分组,所以最终结果应该是一个列表或数据框,其中包含各个月份和每个组的汇总成本。
像这样:
df %>% group_by(Group, month_year) %>%
summarise_each(table(
format(
seq.POSIXt("FromDate", "Todate", by = "hour")
, "%Y-%m") # this is month_year
) * Cost * Quantity )
或者更容易理解 - 最终结果应该只是:(数字不正确)
2014-01 2014-02 .... 2015-12
A 600 900 ... 1100
B 650 600 ... 1870
C 400 700 ... 990
抱歉@NoThanks,但这件事已经变成了一个兔子洞,我没有时间去充分探索,所以这只能部分回答你的问题。
首先我们将数据分为两步(第一步用于不同年份,用 df$Fromdate
表示,第二步用于 df$Group
):
part1 <- split(df, df$Fromdate)
part2 <- lapply(part1, function(x) split(x, x$Group))
现在我们遍历最里面的列表元素,为每一行创建表格,按年份和组划分:
part3 <- lapply(part2, function(a) lapply(a, function(b) Map(function(w,x,y,z) table(format(seq.POSIXt(w, to = x, by = "hour"), "%Y-%m")
) * y * z, b$Fromdate, b$Todate, b$Cost, b$Quantity)))
现在我们 rbind
几年内的小组。
part4 <- lapply(part3, function(x) lapply(x, function(y) do.call(rbind, y)))
现在我们需要从嵌套列表中删除可能的 NULL
个对象。我们使用我曾经在互联网上找到的一个方便的小功能:
rmNullObs <- function(x) {
is.NullOb <- function(x) is.null(x) | all(sapply(x, is.null))
x <- Filter(Negate(is.NullOb), x)
lapply(x, function(x) if (is.list(x)) rmNullObs(x) else x)
}
part4 <- rmNullObs(part4)
现在我们 rbind
年:
part5 <- lapply(part4, function(x) do.call(rbind, lapply(x, function(y) colSums(y))))
留给我们这个:
> part5
$`2014-01-01`
2014-01 2014-02 2014-03 2014-04 2014-05 2014-06 2014-07 2014-08 2014-09 2014-10 2014-11 2014-12
A 298.3570 269.4837 297.9560 288.7326 298.3570 288.7326 298.3570 298.3570 288.7326 298.7580 288.7326 289.1336
B 1053.8216 951.8389 1052.4052 1019.8274 1053.8216 1019.8274 1053.8216 1053.8216 1019.8274 1055.2380 1019.8274 1021.2438
C 825.5506 745.6586 824.4409 798.9199 825.5506 798.9199 825.5506 825.5506 798.9199 826.6602 798.9199 800.0295
$`2015-01-01`
2015-01 2015-02 2015-03 2015-04 2015-05 2015-06 2015-07 2015-08 2015-09 2015-10 2015-11 2015-12
B 862.7437 779.25236 861.5841 834.9132 862.7437 834.9132 862.7437 862.7437 834.9132 863.9033 834.9132 836.0728
C 108.8227 98.29143 108.6764 105.3122 108.8227 105.3122 108.8227 108.8227 105.3122 108.9689 105.3122 105.4585
由于缺少公共列和缺少组,将它们组合起来很棘手。我尝试过的一种可能的解决方案是通过 for
循环为缺失的组手动添加 NA
填充行,但是由于这在很大程度上取决于您的真实数据,因此您必须自己弄清楚或者只是使用这些逐年比较。
希望对您有所帮助。
我有一个数据框,显示许多长期合约。我想做两个计算。
1) 计算合同的每个月有多少小时,并将其乘以成本和数量 2)并获取每组数据框中返回的数据。
数据:
df <- structure(list(Fromdate = structure(c(1388530800, 1388530800,
1388530800, 1388530800, 1388530800, 1388530800, 1388530800, 1388530800,
1388530800, 1420066800, 1388530800, 1388530800, 1388530800, 1388530800,
1420066800), class = c("POSIXct", "POSIXt"), tzone = "CET"),
Todate = structure(c(1419980400, 1419980400, 1419980400,
1419980400, 1419980400, 1419980400, 1419980400, 1419980400,
1419980400, 1451516400, 1419980400, 1419980400, 1419980400,
1419980400, 1451516400), class = c("POSIXct", "POSIXt"), tzone = "CET"),
Cost = c(1.58, 1.58, 1.58, 1.58, 1.58, 1.58, 1.58, 1.58,
1.58, 1.58, 1.58, 1.58, 1.58, 1.58, 1.58), Quantity = c(0.112311303786473,
0.0205773161568493, 0.0493657482020549, 0.0437536029132876,
0.0278005475976713, 0.0295483138287671, 0.066499635323105,
0.066499635323105, 0.733925139981052, 0.733925139981051,
0.1067060088379, 0.436262087700001, 0.0667432627739724, 0.0925740588127852,
0.0925740588127855), Group = structure(c(1L, 1L, 1L, 1L,
1L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L), .Label = c("A",
"B", "C"), class = "factor")), class = "data.frame", row.names = c(NA,
-15L))
1) 我想做的计算,只是一个应用:
table(
format(seq.POSIXt(df$Fromdate[1], to = df$Todate[1], by = "hour"), "%Y-%m")
) * df$Cost[1] * df$Quantity[1]
2014-01 2014-02 2014-03 2014-04 2014-05 2014-06 2014-07 2014-08 2014-09 2014-10 2014-11 2014-12
132.0242 119.2476 131.8467 127.7653 132.0242 127.7653 132.0242 132.0242 127.7653 132.2016 127.7653 127.9428
但是,对于我这辈子,我无法将它应用到 lapply 或任何 purrr 函数中。
2) 最后我还想按组对它进行分组,所以最终结果应该是一个列表或数据框,其中包含各个月份和每个组的汇总成本。
像这样:
df %>% group_by(Group, month_year) %>%
summarise_each(table(
format(
seq.POSIXt("FromDate", "Todate", by = "hour")
, "%Y-%m") # this is month_year
) * Cost * Quantity )
或者更容易理解 - 最终结果应该只是:(数字不正确)
2014-01 2014-02 .... 2015-12
A 600 900 ... 1100
B 650 600 ... 1870
C 400 700 ... 990
抱歉@NoThanks,但这件事已经变成了一个兔子洞,我没有时间去充分探索,所以这只能部分回答你的问题。
首先我们将数据分为两步(第一步用于不同年份,用 df$Fromdate
表示,第二步用于 df$Group
):
part1 <- split(df, df$Fromdate)
part2 <- lapply(part1, function(x) split(x, x$Group))
现在我们遍历最里面的列表元素,为每一行创建表格,按年份和组划分:
part3 <- lapply(part2, function(a) lapply(a, function(b) Map(function(w,x,y,z) table(format(seq.POSIXt(w, to = x, by = "hour"), "%Y-%m")
) * y * z, b$Fromdate, b$Todate, b$Cost, b$Quantity)))
现在我们 rbind
几年内的小组。
part4 <- lapply(part3, function(x) lapply(x, function(y) do.call(rbind, y)))
现在我们需要从嵌套列表中删除可能的 NULL
个对象。我们使用我曾经在互联网上找到的一个方便的小功能:
rmNullObs <- function(x) {
is.NullOb <- function(x) is.null(x) | all(sapply(x, is.null))
x <- Filter(Negate(is.NullOb), x)
lapply(x, function(x) if (is.list(x)) rmNullObs(x) else x)
}
part4 <- rmNullObs(part4)
现在我们 rbind
年:
part5 <- lapply(part4, function(x) do.call(rbind, lapply(x, function(y) colSums(y))))
留给我们这个:
> part5
$`2014-01-01`
2014-01 2014-02 2014-03 2014-04 2014-05 2014-06 2014-07 2014-08 2014-09 2014-10 2014-11 2014-12
A 298.3570 269.4837 297.9560 288.7326 298.3570 288.7326 298.3570 298.3570 288.7326 298.7580 288.7326 289.1336
B 1053.8216 951.8389 1052.4052 1019.8274 1053.8216 1019.8274 1053.8216 1053.8216 1019.8274 1055.2380 1019.8274 1021.2438
C 825.5506 745.6586 824.4409 798.9199 825.5506 798.9199 825.5506 825.5506 798.9199 826.6602 798.9199 800.0295
$`2015-01-01`
2015-01 2015-02 2015-03 2015-04 2015-05 2015-06 2015-07 2015-08 2015-09 2015-10 2015-11 2015-12
B 862.7437 779.25236 861.5841 834.9132 862.7437 834.9132 862.7437 862.7437 834.9132 863.9033 834.9132 836.0728
C 108.8227 98.29143 108.6764 105.3122 108.8227 105.3122 108.8227 108.8227 105.3122 108.9689 105.3122 105.4585
由于缺少公共列和缺少组,将它们组合起来很棘手。我尝试过的一种可能的解决方案是通过 for
循环为缺失的组手动添加 NA
填充行,但是由于这在很大程度上取决于您的真实数据,因此您必须自己弄清楚或者只是使用这些逐年比较。
希望对您有所帮助。