如何区分回归分析中的分类变量和顺序变量?

How to differentiate categorical and ordinal variables in regression analysis?

我正在对与房屋有关的数据进行线性回归分析。现在我有 23 个特征。其中一些显然是有序的(例如年份、房间数、楼层数)。有些特征是绝对的,我对在编码为数字格式时如何处理它们感到困惑。我对使用哪种编码方法犹豫不决:单热编码(用于分类)或仅序数映射(用于序数数据)。 我知道颜色、性别、地区、国籍等分类特征显然必须使用虚拟编码进行编码。同样清楚的是,诸如具有 'old'、'renovated'、'new' 可能值的条件的分类特征可以排序并编码为 1, 2, 3 分别。

但我不确定如何对不太明显的特征进行编码。该特征的性质不会立即引起注意,并且在某种程度上可以同时归因于序数数据和分类数据。让我们看例子:

Strongly Agree 
Agree 
Undecided 
Disagree 
Strongly Disagree 

It is from question: https://stats.stackexchange.com/questions/58818/can-ordinal-variables-be-used-as-predictor-for-linear-multiple-regression-analys

作者决定按顺序对它们进行编码。有些人建议使用虚拟编码。不清楚。
另一个例子(material):

Plastic
Wood    
Metal
Armored 

从我的角度来看,这些数据可以按顺序排序和编码为 1,2,3,4。简单装甲比金属贵。金属比木材贵等等。但是我在 youtube 上看到一个讲座,据说不要仅仅因为看到一些上升或下降模式就按顺序编码特征。这些模式可能是错觉和错误的。

另一个例子(互联网连接类型):

DSL
ADSL
SDSL
Cable
Broadband

其中一些速度更快,一些速度比其他速度慢,但没有 "clear order"。如何处理此类 'unclear' 分类数据。

如何区分分类数据和顺序数据?或者我只需要按顺序编码非常简单的序数变量,例如 'condition',并将其余不清楚的变量保留为分类和虚拟代码。

我会说序数变量是您可以排序的东西,并且在您的值集之外的答案仍然有意义。好的例子是 'agree' / 'disagree'。您可以将它们映射到值 1-5,甚至当您得到 2.3 时您也知道它的含义:它比 'agree' 多一点。但是 'plastic'/'wood' 完全没有意义 - 这是绝对的。 关于互联网连接类型。这取决于。如果我们谈论的是速度并且您可以对这些连接进行排序,那么将其视为序数可能是有意义的。但如果我们谈论的是例如调制解调器类型受欢迎程度不仅仅是一个分类变量