基于 R 中的时间戳和唯一 ID 重构数据
Re-structuring data based on time-stamps and unique IDs in R
我正在处理一个大型数据集(超过 1000 万个案例),其中每个案例代表给定产品(有 17 种产品)的每月销售交易。因此,每家商店可能代表 204 个案例(12 个月 * 17 种产品销售额;请注意,并非所有商店全年都销售全部 17 种产品)。
我需要重组数据,以便每笔产品交易都有一个案例。这将导致每个商店仅代表 17 个案例。
理想情况下,我希望创建 12 个月交易的平均值。
更具体地说,该数据集目前有 5 个变量:
- 商店位置 — 唯一的 6 位序列
- 月 — 2013_MM(数据仅来自 2013 年)
- 售出的单位数量总利润(英镑)
- 产品类型 - 17 种不同的产品类型(这是一个字符串
变量)
我在 R 中工作。最好将这个重组后的数据集保存到数据框中。
我认为 if/for 循环可以工作,但我不确定如何让它工作。
非常感谢任何建议或想法。如果您需要更多信息,请直接询问!
亲切的问候,
R
这里确实没有太多可处理的,但这就是我的解释导致的...您想要总结您的数据集,按 shop_location 和 product_type 分组
# install.packages('dplyr')
library(dplyr)
your_data_set <- xxx
your_data_set %>%
group_by(shop_location, product_type) %>%
summarise(profit = sum(total_profit),
count = n(),
avg_profit = profit/count)
我正在处理一个大型数据集(超过 1000 万个案例),其中每个案例代表给定产品(有 17 种产品)的每月销售交易。因此,每家商店可能代表 204 个案例(12 个月 * 17 种产品销售额;请注意,并非所有商店全年都销售全部 17 种产品)。
我需要重组数据,以便每笔产品交易都有一个案例。这将导致每个商店仅代表 17 个案例。
理想情况下,我希望创建 12 个月交易的平均值。
更具体地说,该数据集目前有 5 个变量:
- 商店位置 — 唯一的 6 位序列
- 月 — 2013_MM(数据仅来自 2013 年)
- 售出的单位数量总利润(英镑)
- 产品类型 - 17 种不同的产品类型(这是一个字符串 变量)
我在 R 中工作。最好将这个重组后的数据集保存到数据框中。
我认为 if/for 循环可以工作,但我不确定如何让它工作。
非常感谢任何建议或想法。如果您需要更多信息,请直接询问!
亲切的问候,
R
这里确实没有太多可处理的,但这就是我的解释导致的...您想要总结您的数据集,按 shop_location 和 product_type 分组
# install.packages('dplyr')
library(dplyr)
your_data_set <- xxx
your_data_set %>%
group_by(shop_location, product_type) %>%
summarise(profit = sum(total_profit),
count = n(),
avg_profit = profit/count)