优势比中的NA是什么意思?
What does NA in odds ratio mean?
我目前正在使用自变量和因变量作为逻辑变量进行着陆页测试。我想检查哪些变量(如果为真)是转化的主要因素。
所以基本上我们是在测试单个变量的多个变体。例如,我们有三个不同的图像,如果图像 1 的某一行为真,则其他两个变量为假。
我使用逻辑回归来进行这个测试。当我查看比值比输出时,我最终得到了很多 NA。我不确定如何解释它们以及如何纠正它们。
下面是示例数据集。实际数据有18000+行。
classifier1 <- glm(formula = Target ~ .,
family = binomial,
data = Dataset)
这是输出。
这是否意味着我需要更多数据?有没有其他方法可以进行多版本着陆页测试?
看起来您的两个或多个变量(列)完全相关。尝试删除多个列。
可以在玩具data.frame
看到,随机内容:
n <- 20
y <- matrix(sample(c(TRUE, FALSE), 5 * n, replace = TRUE), ncol = 5)
colnames(y) <- letters[1:5]
z <- as.data.frame(y)
z$target <- rep(0:1, 2 * n)[1:nrow(z)]
m <- glm(target ~ ., data = z, family = binomial)
summary(m)
在摘要处可以看到一切正常。
Call:
glm(formula = target ~ ., family = binomial, data = z)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.89808 -0.48166 -0.00004 0.64134 1.89222
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -22.3679 4700.1462 -0.005 0.9962
aTRUE 3.2286 1.6601 1.945 0.0518 .
bTRUE 20.2584 4700.1459 0.004 0.9966
cTRUE 0.7928 1.3743 0.577 0.5640
dTRUE 17.0438 4700.1460 0.004 0.9971
eTRUE 2.9238 1.6658 1.755 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 27.726 on 19 degrees of freedom
Residual deviance: 14.867 on 14 degrees of freedom
AIC: 26.867
Number of Fisher Scoring iterations: 18
但是如果你让两列完全相关如下,然后建立广义线性模型:
z$a <- z$b
m <- glm(target ~ ., data = z, family = binomial)
summary(m)
你可以观察到如下的NAs
Call:
glm(formula = target ~ ., family = binomial, data = z)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.66621 -1.01173 0.00001 1.06907 1.39309
Coefficients: (1 not defined because of singularities)
Estimate Std. Error z value Pr(>|z|)
(Intercept) -18.8718 3243.8340 -0.006 0.995
aTRUE 18.7777 3243.8339 0.006 0.995
bTRUE NA NA NA NA
cTRUE 0.3544 1.0775 0.329 0.742
dTRUE 17.1826 3243.8340 0.005 0.996
eTRUE 1.1952 1.2788 0.935 0.350
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 27.726 on 19 degrees of freedom
Residual deviance: 19.996 on 15 degrees of freedom
AIC: 29.996
Number of Fisher Scoring iterations: 17
我目前正在使用自变量和因变量作为逻辑变量进行着陆页测试。我想检查哪些变量(如果为真)是转化的主要因素。
所以基本上我们是在测试单个变量的多个变体。例如,我们有三个不同的图像,如果图像 1 的某一行为真,则其他两个变量为假。
我使用逻辑回归来进行这个测试。当我查看比值比输出时,我最终得到了很多 NA。我不确定如何解释它们以及如何纠正它们。
下面是示例数据集。实际数据有18000+行。
classifier1 <- glm(formula = Target ~ .,
family = binomial,
data = Dataset)
这是输出。
这是否意味着我需要更多数据?有没有其他方法可以进行多版本着陆页测试?
看起来您的两个或多个变量(列)完全相关。尝试删除多个列。
可以在玩具data.frame
看到,随机内容:
n <- 20
y <- matrix(sample(c(TRUE, FALSE), 5 * n, replace = TRUE), ncol = 5)
colnames(y) <- letters[1:5]
z <- as.data.frame(y)
z$target <- rep(0:1, 2 * n)[1:nrow(z)]
m <- glm(target ~ ., data = z, family = binomial)
summary(m)
在摘要处可以看到一切正常。
Call:
glm(formula = target ~ ., family = binomial, data = z)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.89808 -0.48166 -0.00004 0.64134 1.89222
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -22.3679 4700.1462 -0.005 0.9962
aTRUE 3.2286 1.6601 1.945 0.0518 .
bTRUE 20.2584 4700.1459 0.004 0.9966
cTRUE 0.7928 1.3743 0.577 0.5640
dTRUE 17.0438 4700.1460 0.004 0.9971
eTRUE 2.9238 1.6658 1.755 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 27.726 on 19 degrees of freedom
Residual deviance: 14.867 on 14 degrees of freedom
AIC: 26.867
Number of Fisher Scoring iterations: 18
但是如果你让两列完全相关如下,然后建立广义线性模型:
z$a <- z$b
m <- glm(target ~ ., data = z, family = binomial)
summary(m)
你可以观察到如下的NAs
Call:
glm(formula = target ~ ., family = binomial, data = z)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.66621 -1.01173 0.00001 1.06907 1.39309
Coefficients: (1 not defined because of singularities)
Estimate Std. Error z value Pr(>|z|)
(Intercept) -18.8718 3243.8340 -0.006 0.995
aTRUE 18.7777 3243.8339 0.006 0.995
bTRUE NA NA NA NA
cTRUE 0.3544 1.0775 0.329 0.742
dTRUE 17.1826 3243.8340 0.005 0.996
eTRUE 1.1952 1.2788 0.935 0.350
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 27.726 on 19 degrees of freedom
Residual deviance: 19.996 on 15 degrees of freedom
AIC: 29.996
Number of Fisher Scoring iterations: 17