我将如何自动计算不同国家的 tibble 内的相关性并有效存储?
How would I automate computing correlations within a tibble for various countries and store effectively?
有点像 R 的初学者,我正在处理大约 500,000 行的相对较大的数据集(至少对我而言)。
我正在尝试为 PISA 数据集(基于教育的调查)找到不同国家(具体衡量欺凌的影响)变量之间的相关性。
我能够根据具体情况计算国家/地区的相关矩阵。
我想记录所有这些国家/地区的两个变量(不一定是整个矩阵)之间的相关性 - 将其自动化并将结果全部存储在一个 tibble 中,以便我不需要花时间手动执行此操作。
correl_countries = tibble()
for (each in list_countries){
countries_bullying %>% #tibble subset of the original data
filter(CNTRYID == each)%>%
select(reading_score, bullied_index)%>%
correl = cor(use = "pairwise.complete.obs") #something to store the correlation values
correl_countries %>% add_row(x = each, y = correl) #wanted to add these results to a tibble
}
目前似乎没有任何反应,我收到了这个错误。
Error in is.data.frame(x) : argument "x" is missing, with no default
可能与“pairwise.complete.obs”生成的是相关矩阵而不是单个向量有关。
感谢您的推荐!
这里是新用户 - 不知何故无法发表评论。如果我理解正确的话,您想计算每个国家/地区 2 个变量之间的相关性,并将其存储在单独的 tibble 中。将“df”替换为数据集的名称,将“countries”替换为数据集中包含所有国家/地区的变量。对于大型数据集,更优雅的解决方案可能可用(即每个循环子集更少的变量)。
correl_countries <- c()
vec <- unique(df$countries)
for (i in 1:length(vec)) {
new <- df[df$countries == vec[i],]
correl_countries[i] <- cor(new$var1, new$var2)
}
tibble(vec, correl_countries)
你真的不需要这里的循环,tidyverse
已经帮你解决了......下面的 returns 有 2 列的小标题:CNTRYID 和 correl:
library(tidyverse)
# get only the correlations
countries_bullying %>%
group_by(CNTRYID) %>%
summarise(correl = cor(reading_score, bullied_index, use = "pairwise.complete.obs"))
有点像 R 的初学者,我正在处理大约 500,000 行的相对较大的数据集(至少对我而言)。
我正在尝试为 PISA 数据集(基于教育的调查)找到不同国家(具体衡量欺凌的影响)变量之间的相关性。
我能够根据具体情况计算国家/地区的相关矩阵。
我想记录所有这些国家/地区的两个变量(不一定是整个矩阵)之间的相关性 - 将其自动化并将结果全部存储在一个 tibble 中,以便我不需要花时间手动执行此操作。
correl_countries = tibble()
for (each in list_countries){
countries_bullying %>% #tibble subset of the original data
filter(CNTRYID == each)%>%
select(reading_score, bullied_index)%>%
correl = cor(use = "pairwise.complete.obs") #something to store the correlation values
correl_countries %>% add_row(x = each, y = correl) #wanted to add these results to a tibble
}
目前似乎没有任何反应,我收到了这个错误。
Error in is.data.frame(x) : argument "x" is missing, with no default
可能与“pairwise.complete.obs”生成的是相关矩阵而不是单个向量有关。
感谢您的推荐!
这里是新用户 - 不知何故无法发表评论。如果我理解正确的话,您想计算每个国家/地区 2 个变量之间的相关性,并将其存储在单独的 tibble 中。将“df”替换为数据集的名称,将“countries”替换为数据集中包含所有国家/地区的变量。对于大型数据集,更优雅的解决方案可能可用(即每个循环子集更少的变量)。
correl_countries <- c()
vec <- unique(df$countries)
for (i in 1:length(vec)) {
new <- df[df$countries == vec[i],]
correl_countries[i] <- cor(new$var1, new$var2)
}
tibble(vec, correl_countries)
你真的不需要这里的循环,tidyverse
已经帮你解决了......下面的 returns 有 2 列的小标题:CNTRYID 和 correl:
library(tidyverse)
# get only the correlations
countries_bullying %>%
group_by(CNTRYID) %>%
summarise(correl = cor(reading_score, bullied_index, use = "pairwise.complete.obs"))