如何在现有相关矩阵上运行 PCA,然后运行 回归?
How to run PCA on existing correlation matrix, then run regression?
我目前已经计算了调查受访者之间的成对相关性,并将其存储在数据框中。它看起来像这样:
person_1 person_2 person_3
person_1. 0 1.5 1.8
person_2. 1.5 0 2.2
person_3. 1.8 2.2. 0
现在我想 运行 PCA 分析来找到每个响应的负载。我有 2 个问题:
- 直接使用相关矩阵计算PC应该用哪个函数?
- 在相关说明中。然后我想回归每个受访者在原始数据框中对该人的调查评分的加载。有没有办法将“分数”列合并回 运行 回归函数?或者还有另一种方法可以做到 regression/prediction?
原始数据框是一个文本数据框,看起来像这样。然后我运行句子之间的词移动距离推导出相关矩阵。
text. score
person_1. I like working at Apple 2
person_2 the culture is great -2
person_3. pandemic hits 5
谢谢!
由于您有一个矩阵,有时 R
中大多数已知的 PCA 算法过去都存在容差问题,因此它们 return 出错。我会建议使用 eigen()
函数的下一种方法,它复制了 PCA 的本质。接下来的代码:
#Data
#Matrix
mm <- structure(c(0, 1.5, 1.8, 1.5, 0, 2.2, 1.8, 2.2, 0), .Dim = c(3L,
3L), .Dimnames = list(c("person_1", "person_2", "person_3"),
c("person_1", "person_2", "person_3")))
#Scores
df1 <- structure(list(text. = c("I like working at Apple", "the culture is great",
"pandemic hits"), score = c(2L, -2L, 5L)), row.names = c(NA,
-3L), class = "data.frame")
PCA 的代码如下:
#PCA
myPCA <- eigen(mm)
#Squares of sd computed by princomp
myPCA$values
输出:
[1] 3.681925 -1.437762 -2.244163
为了获得负载,我们使用这个:
#Loadings
myPCA$vectors
输出:
[,1] [,2] [,3]
[1,] -0.5360029 0.8195308 -0.2026578
[2,] -0.5831254 -0.5329938 -0.6130925
[3,] -0.6104635 -0.2104444 0.7635754
根据之前的输出,我们创建了一个回归数据框:
#Format loadings
Vectors <- data.frame(myPCA$vectors)
names(Vectors) <- colnames(mm)
#Prepare to regression
#Create data
mydf <- cbind(df1[,c('score'),drop=F],Vectors)
输出:
score person_1 person_2 person_3
1 2 -0.5360029 0.8195308 -0.2026578
2 -2 -0.5831254 -0.5329938 -0.6130925
3 5 -0.6104635 -0.2104444 0.7635754
最后的回归代码是这样的:
#Build models
lm(score~person_1,data=mydf)
lm(score~person_2,data=mydf)
lm(score~person_3,data=mydf)
如果需要,可以将最后的模型保存在新对象中。一个例子是:
m1 <- lm(score~person_1,data=mydf)
summary(m1)
输出:
Call:
lm(formula = score ~ person_1, data = mydf)
Residuals:
1 2 3
1.411 -3.842 2.431
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -13.66 51.60 -0.265 0.835
person_1 -26.58 89.37 -0.297 0.816
Residual standard error: 4.76 on 1 degrees of freedom
Multiple R-squared: 0.08127, Adjusted R-squared: -0.8375
F-statistic: 0.08846 on 1 and 1 DF, p-value: 0.816
我目前已经计算了调查受访者之间的成对相关性,并将其存储在数据框中。它看起来像这样:
person_1 person_2 person_3
person_1. 0 1.5 1.8
person_2. 1.5 0 2.2
person_3. 1.8 2.2. 0
现在我想 运行 PCA 分析来找到每个响应的负载。我有 2 个问题:
- 直接使用相关矩阵计算PC应该用哪个函数?
- 在相关说明中。然后我想回归每个受访者在原始数据框中对该人的调查评分的加载。有没有办法将“分数”列合并回 运行 回归函数?或者还有另一种方法可以做到 regression/prediction?
原始数据框是一个文本数据框,看起来像这样。然后我运行句子之间的词移动距离推导出相关矩阵。
text. score
person_1. I like working at Apple 2
person_2 the culture is great -2
person_3. pandemic hits 5
谢谢!
由于您有一个矩阵,有时 R
中大多数已知的 PCA 算法过去都存在容差问题,因此它们 return 出错。我会建议使用 eigen()
函数的下一种方法,它复制了 PCA 的本质。接下来的代码:
#Data
#Matrix
mm <- structure(c(0, 1.5, 1.8, 1.5, 0, 2.2, 1.8, 2.2, 0), .Dim = c(3L,
3L), .Dimnames = list(c("person_1", "person_2", "person_3"),
c("person_1", "person_2", "person_3")))
#Scores
df1 <- structure(list(text. = c("I like working at Apple", "the culture is great",
"pandemic hits"), score = c(2L, -2L, 5L)), row.names = c(NA,
-3L), class = "data.frame")
PCA 的代码如下:
#PCA
myPCA <- eigen(mm)
#Squares of sd computed by princomp
myPCA$values
输出:
[1] 3.681925 -1.437762 -2.244163
为了获得负载,我们使用这个:
#Loadings
myPCA$vectors
输出:
[,1] [,2] [,3]
[1,] -0.5360029 0.8195308 -0.2026578
[2,] -0.5831254 -0.5329938 -0.6130925
[3,] -0.6104635 -0.2104444 0.7635754
根据之前的输出,我们创建了一个回归数据框:
#Format loadings
Vectors <- data.frame(myPCA$vectors)
names(Vectors) <- colnames(mm)
#Prepare to regression
#Create data
mydf <- cbind(df1[,c('score'),drop=F],Vectors)
输出:
score person_1 person_2 person_3
1 2 -0.5360029 0.8195308 -0.2026578
2 -2 -0.5831254 -0.5329938 -0.6130925
3 5 -0.6104635 -0.2104444 0.7635754
最后的回归代码是这样的:
#Build models
lm(score~person_1,data=mydf)
lm(score~person_2,data=mydf)
lm(score~person_3,data=mydf)
如果需要,可以将最后的模型保存在新对象中。一个例子是:
m1 <- lm(score~person_1,data=mydf)
summary(m1)
输出:
Call:
lm(formula = score ~ person_1, data = mydf)
Residuals:
1 2 3
1.411 -3.842 2.431
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -13.66 51.60 -0.265 0.835
person_1 -26.58 89.37 -0.297 0.816
Residual standard error: 4.76 on 1 degrees of freedom
Multiple R-squared: 0.08127, Adjusted R-squared: -0.8375
F-statistic: 0.08846 on 1 and 1 DF, p-value: 0.816