R:我可以使用 mlogit 分析非个体间变化的特定替代属性变量吗?
R: Can I analyze non-varying-across-individual alternative-specific attribute variables with mlogit?
我是离散选择建模的新手,如果我误解了分析的基本方面,我深表歉意。
我想 运行 使用特定于个体的变量进行离散选择分析,我 认为 是特定于替代的属性变量。从 mlogit 小插图中,我认为个体特定变量是“选择情况特定协变量”(在新小插图中),而替代特定属性变量是“具有通用系数的替代特定协变量”(同样,在新小插图中)。特定于备选方案的属性变量不应对不同的备选方案产生不同的影响,因此我认为适用于所有备选方案的通用系数是有序的。
我们以 Fishing 数据集为例。
library(mlogit)
data(Fishing)
Fish1 <- dfidx(Fishing, varying=2:9, choice="mode", idnames=c("chid", "alt"),
drop.index=F)
Fish1
...这让我们:
~~~~~~~
first 10 observations out of 4728
~~~~~~~
mode income alt price catch chid idx
1 FALSE 7083.332 beach 157.930 0.0678 1 1:each
2 FALSE 7083.332 boat 157.930 0.2601 1 1:boat
3 TRUE 7083.332 charter 182.930 0.5391 1 1:rter
4 FALSE 7083.332 pier 157.930 0.0503 1 1:pier
5 FALSE 1250.000 beach 15.114 0.1049 2 2:each
6 FALSE 1250.000 boat 10.534 0.1574 2 2:boat
7 TRUE 1250.000 charter 34.534 0.4671 2 2:rter
8 FALSE 1250.000 pier 15.114 0.0451 2 2:pier
9 FALSE 3750.000 beach 161.874 0.5333 3 3:each
10 TRUE 3750.000 boat 24.334 0.2413 3 3:boat```
然后我们拟合模型:
(fit1 <- mlogit(mode ~ price+catch | income | 1, data=Fish1))
...这让我们:
Call:
mlogit(formula = mode ~ price + catch | income | 1, data = Fish1, method = "nr")
Coefficients:
(Intercept):boat (Intercept):charter (Intercept):pier price
0.527278790 1.694365710 0.777959401 -0.025116570
catch income:boat income:charter income:pier
0.357781958 0.000089440 -0.000033292 -0.000127577
到目前为止一切顺利。
现在让我们重新编码 price 和 catch(替代特定的属性变量)值,使其成为替代变化但个体不变的值:
Fishing2 <- Fishing
Fishing2$price.beach <- 50
Fishing2$price.pier <- 100
Fishing2$price.boat <- 150
Fishing2$price.charter <- 200
Fishing2$catch.beach <- .2
Fishing2$catch.pier <- .5
Fishing2$catch.boat <- .75
Fishing2$catch.charter <- .87
Fish2 <- dfidx(Fishing2, varying=2:9, choice="mode", idnames=c("chid", "alt"),
drop.index=F)
Fish2
...这让我们:
~~~~~~~
first 10 observations out of 4728
~~~~~~~
mode income alt price catch chid idx
1 FALSE 7083.332 beach 50 0.20 1 1:each
2 FALSE 7083.332 boat 150 0.75 1 1:boat
3 TRUE 7083.332 charter 200 0.87 1 1:rter
4 FALSE 7083.332 pier 100 0.50 1 1:pier
5 FALSE 1250.000 beach 50 0.20 2 2:each
6 FALSE 1250.000 boat 150 0.75 2 2:boat
7 TRUE 1250.000 charter 200 0.87 2 2:rter
8 FALSE 1250.000 pier 100 0.50 2 2:pier
9 FALSE 3750.000 beach 50 0.20 3 3:each
10 TRUE 3750.000 boat 150 0.75 3 3:boat
在我看来,这就像一个单选产品比较:每个备选方案都有一组固定的属性(具有通用系数的备选方案特定属性变量),可能会影响个人的决定。个人的收入,特定于个人(或特定于选择情况,来自新的小插图)变量,也可能影响决策,尽管它必须随着小插图所示的替代方案而变化。
但是,当我尝试 运行 Fish2 数据集的模型时,它失败了:
fit2 <- mlogit(mode ~ price+catch | income | 1, data=Fish2)
Error in solve.default(H, g[!fixed]) :
system is computationally singular: reciprocal condition number = 3.18998e-23
我猜问题是替代特定的属性变量在不同的选择情况下没有变化,但我不明白为什么,或者如何解决它。在我看来,我应该能够使用 mlogit 分析这种情况。
如果有另一种分析技术可以更好地解决此类问题,我愿意接受建议。
您收到的错误消息通常是数据变化不足的结果。由于变化不足,Hessian 矩阵(信息矩阵的负数)变为奇异且无法反转,即您无法获得标准误差。这个特定的错误消息有很多答案。例如 here.
在你的第二个例子中,如果我理解正确的话,每个备选方案对所有个体都是相同的,这意味着你只有四个不同的观察结果,每个钓鱼地点一个。虽然您多次观察每一个,但您仍然只有 4 个独特的观察结果,但您正在尝试拟合 8 个参数。这很可能是您的模型失败的原因。
因此,事实证明,如果包含 alternative-specific 具有一般系数的协变量并允许包含截距,则存在多重共线性问题。来自 mlogit 小插图:
The treatment of alternative specific variables don’t differ much from the alternative and choice situation specific variables with a generic coefficient. However, if some of these variables are introduced, the parameter can only be estimated in a model without intercepts to avoid perfect multicolinearity.
如果我删除截距:
(fit2 <- mlogit(mode ~ price+catch - 1 | income - 1, data=Fish2))
一切正常:
Call:
mlogit(formula = mode ~ price + catch - 1 | income - 1, data = Fish2, method = "nr")
Coefficients:
price catch income:boat income:charter income:pier
0.0117786865 -0.9155791943 0.0001061285 0.0000037033 -0.0000411957
我是离散选择建模的新手,如果我误解了分析的基本方面,我深表歉意。
我想 运行 使用特定于个体的变量进行离散选择分析,我 认为 是特定于替代的属性变量。从 mlogit 小插图中,我认为个体特定变量是“选择情况特定协变量”(在新小插图中),而替代特定属性变量是“具有通用系数的替代特定协变量”(同样,在新小插图中)。特定于备选方案的属性变量不应对不同的备选方案产生不同的影响,因此我认为适用于所有备选方案的通用系数是有序的。
我们以 Fishing 数据集为例。
library(mlogit)
data(Fishing)
Fish1 <- dfidx(Fishing, varying=2:9, choice="mode", idnames=c("chid", "alt"),
drop.index=F)
Fish1
...这让我们:
~~~~~~~
first 10 observations out of 4728
~~~~~~~
mode income alt price catch chid idx
1 FALSE 7083.332 beach 157.930 0.0678 1 1:each
2 FALSE 7083.332 boat 157.930 0.2601 1 1:boat
3 TRUE 7083.332 charter 182.930 0.5391 1 1:rter
4 FALSE 7083.332 pier 157.930 0.0503 1 1:pier
5 FALSE 1250.000 beach 15.114 0.1049 2 2:each
6 FALSE 1250.000 boat 10.534 0.1574 2 2:boat
7 TRUE 1250.000 charter 34.534 0.4671 2 2:rter
8 FALSE 1250.000 pier 15.114 0.0451 2 2:pier
9 FALSE 3750.000 beach 161.874 0.5333 3 3:each
10 TRUE 3750.000 boat 24.334 0.2413 3 3:boat```
然后我们拟合模型:
(fit1 <- mlogit(mode ~ price+catch | income | 1, data=Fish1))
...这让我们:
Call:
mlogit(formula = mode ~ price + catch | income | 1, data = Fish1, method = "nr")
Coefficients:
(Intercept):boat (Intercept):charter (Intercept):pier price
0.527278790 1.694365710 0.777959401 -0.025116570
catch income:boat income:charter income:pier
0.357781958 0.000089440 -0.000033292 -0.000127577
到目前为止一切顺利。
现在让我们重新编码 price 和 catch(替代特定的属性变量)值,使其成为替代变化但个体不变的值:
Fishing2 <- Fishing
Fishing2$price.beach <- 50
Fishing2$price.pier <- 100
Fishing2$price.boat <- 150
Fishing2$price.charter <- 200
Fishing2$catch.beach <- .2
Fishing2$catch.pier <- .5
Fishing2$catch.boat <- .75
Fishing2$catch.charter <- .87
Fish2 <- dfidx(Fishing2, varying=2:9, choice="mode", idnames=c("chid", "alt"),
drop.index=F)
Fish2
...这让我们:
~~~~~~~
first 10 observations out of 4728
~~~~~~~
mode income alt price catch chid idx
1 FALSE 7083.332 beach 50 0.20 1 1:each
2 FALSE 7083.332 boat 150 0.75 1 1:boat
3 TRUE 7083.332 charter 200 0.87 1 1:rter
4 FALSE 7083.332 pier 100 0.50 1 1:pier
5 FALSE 1250.000 beach 50 0.20 2 2:each
6 FALSE 1250.000 boat 150 0.75 2 2:boat
7 TRUE 1250.000 charter 200 0.87 2 2:rter
8 FALSE 1250.000 pier 100 0.50 2 2:pier
9 FALSE 3750.000 beach 50 0.20 3 3:each
10 TRUE 3750.000 boat 150 0.75 3 3:boat
在我看来,这就像一个单选产品比较:每个备选方案都有一组固定的属性(具有通用系数的备选方案特定属性变量),可能会影响个人的决定。个人的收入,特定于个人(或特定于选择情况,来自新的小插图)变量,也可能影响决策,尽管它必须随着小插图所示的替代方案而变化。
但是,当我尝试 运行 Fish2 数据集的模型时,它失败了:
fit2 <- mlogit(mode ~ price+catch | income | 1, data=Fish2)
Error in solve.default(H, g[!fixed]) :
system is computationally singular: reciprocal condition number = 3.18998e-23
我猜问题是替代特定的属性变量在不同的选择情况下没有变化,但我不明白为什么,或者如何解决它。在我看来,我应该能够使用 mlogit 分析这种情况。
如果有另一种分析技术可以更好地解决此类问题,我愿意接受建议。
您收到的错误消息通常是数据变化不足的结果。由于变化不足,Hessian 矩阵(信息矩阵的负数)变为奇异且无法反转,即您无法获得标准误差。这个特定的错误消息有很多答案。例如 here.
在你的第二个例子中,如果我理解正确的话,每个备选方案对所有个体都是相同的,这意味着你只有四个不同的观察结果,每个钓鱼地点一个。虽然您多次观察每一个,但您仍然只有 4 个独特的观察结果,但您正在尝试拟合 8 个参数。这很可能是您的模型失败的原因。
因此,事实证明,如果包含 alternative-specific 具有一般系数的协变量并允许包含截距,则存在多重共线性问题。来自 mlogit 小插图:
The treatment of alternative specific variables don’t differ much from the alternative and choice situation specific variables with a generic coefficient. However, if some of these variables are introduced, the parameter can only be estimated in a model without intercepts to avoid perfect multicolinearity.
如果我删除截距:
(fit2 <- mlogit(mode ~ price+catch - 1 | income - 1, data=Fish2))
一切正常:
Call:
mlogit(formula = mode ~ price + catch - 1 | income - 1, data = Fish2, method = "nr")
Coefficients:
price catch income:boat income:charter income:pier
0.0117786865 -0.9155791943 0.0001061285 0.0000037033 -0.0000411957