r 中的因子变量

Factor variables in r

我有一个数据集,其中包含 r 中的三个因子变量,并且我的 glm 模型的输出始终为每个单独的分类值提供估计值。我尝试使用如下所示的 as.numeric 命令来更正此问题,我在 glm 模型中使用了 factor 命令,但我仍然得到相同的输出。

as.numeric(levels(Make))[as.integer(Make)]
as.numeric(levels(Zone))[as.integer(Zone)]
as.numeric(levels(Kilometres))[as.integer(Kilometres)]

对于 glm 模型,我选择了使用默认 link 函数的伽马分布。

 Gamma = glm(perd ~ factor(Kilometres) + factor(Zone) + Bonus + factor(Make) + Insured, 
      family = Gamma(link = "inverse"))

我不知道应该如何更改我的代码,以便它给出整个变量的回归估计。有什么想法吗?

  1. 不要将分类变量转换为数值变量 - 这将创建一个非常不同的模型[无论如何你的尝试都不会奏效]
  2. 不存在对整个变量的 "regression" 估计。如果分类变量有 n 个类别,标准方法将创建 n-1 个指标变量,每个指标变量都有一个估计值。
  3. 您想测试删除分类变量的影响。

glm 的帮助文件中的第一个示例给出了一个示例,其中您使用 anova 执行关于删除变量影响的适当假设检验[偏差分析]

# In your case
anova(Gamma)

# or
drop1(Gamma)