如何使用来自不同位置(分类变量)的数据制作统计模型?

How to make a statistical model with data from different locations (categorical variables)?

我正在帮我女朋友为她的硕士论文项目 (Env. Sci) 制作模型。 数据集有以下列: 站点距离(m) 深度(cm) pH %N %C C:N

她测量了来自 5 个不同泥沼(湿地)的 soil/peat 样本的 pH 值以及总碳和总氮。

'Distance (m)' 是与非随机起点(湿区)的距离,它在某些站点中也会倒退为负值。 C:N 源自 %N 和 %C,深度是采集土壤样本的深度。

我们应该如何对数据建模?我们怀疑所有变量之间都存在关系..

是否应该按站点对数据进行分组,然后做一个回归模型,然后与其他站点进行比较?或者你如何根据数值处理 'sites'(分类变量)?

你可以使用很多技巧来解决这个问题。 One-Hot 编码就是其中之一。其实这取决于你的数据。我强烈建议您阅读此页面以决定最佳选择:https://www.datacamp.com/community/tutorials/categorical-data 此外,你不应该 select 你自己的特征。(我们怀疑所有变量之间都存在关系.. - > 你不必确定哪些特征是最相关的)。我们可以使用一些方法。看一下这个 https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/

https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2