Python 逻辑回归中的控制变量

Controlled Variables in Logistic Regression in Python

我刚刚了解了受控变量对我正在做的项目意味着什么,我试图找出 sci-kit learn 是否有受控变量选项。具体来说,Python 是否有逻辑回归的控制变量(不是自变量)?

我用谷歌搜索了一些东西,但没有找到 Python。然而,我在想更基本的,控制变量意味着对你感兴趣的群体(比如种族)进行分层,然后根据你的 x 和 y 对每个群体进行分析。如果这是正确的,那么我应该可以解释那些分层组的结果,对吗?

抱歉,我问了两个问题,但我正试图在 Python

上获得有关此受控小组想法和应用的更多信息

你可能知道,控制变量是那些实验者对研究不感兴趣,但相信它们对你的因变量取值有重要作用的变量。因此,人们在 运行 他们的实验(即收集数据)时通常会将该变量的值保持为常数。

举个例子,假设您正在尝试对一个人的健康状况进行建模,即对他是否健康进行分类,并且您正在考虑将年龄、性别和 his/her 运动模式作为模型的输入并想研究每个输入如何影响您的目标变量。但你很清楚,受试者居住的国家也会对他的健康状况(气候、卫生设施等进行编码)有发言权。因此,为了确保这个变量(国家/地区)不会影响您的模型,您要确保仅从一个国家/地区收集所有数据。

所以回答你的第一个问题,没有python账户没有控制变量。它只是假设您输入的所有输入变量都是实验者感兴趣的。

关于你的第二个问题,一种处理控制变量的方法是首先根据它对数据进行分组,这样每组现在都有一个控制变量的常量值,现在我们 运行 Logistic分别对每个组进行回归或任何模型,然后 'pool' 来自不同模型的结果。但如果控制变量中的水平数非常高,这种方法就会失效,在这种情况下,我们通常将控制变量视为独立变量并将其提供给我们的模型。

更多细节请参考1 or 2,他们的解释确实不错。