如何使用来自不同位置（分类变量）的数据制作统计模型？

How to make a statistical model with data from different locations (categorical variables)?

我正在帮我女朋友为她的硕士论文项目 (Env. Sci) 制作模型。数据集有以下列：站点距离(m) 深度(cm) pH %N %C C:N

她测量了来自 5 个不同泥沼（湿地）的 soil/peat 样本的 pH 值以及总碳和总氮。

'Distance (m)' 是与非随机起点（湿区）的距离，它在某些站点中也会倒退为负值。 C:N 源自 %N 和 %C，深度是采集土壤样本的深度。

我们应该如何对数据建模？我们怀疑所有变量之间都存在关系..

是否应该按站点对数据进行分组，然后做一个回归模型，然后与其他站点进行比较？或者你如何根据数值处理 'sites'（分类变量）？

你可以使用很多技巧来解决这个问题。 One-Hot 编码就是其中之一。其实这取决于你的数据。我强烈建议您阅读此页面以决定最佳选择：https://www.datacamp.com/community/tutorials/categorical-data 此外，你不应该 select 你自己的特征。（我们怀疑所有变量之间都存在关系.. - > 你不必确定哪些特征是最相关的）。我们可以使用一些方法。看一下这个 https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/