由于单列文本导致的数据框标准偏差问题
Dataframe Standard Deviation issue due to a single column of text
我有一个数据框,其中包含多行调查响应值 (1 - 5),我正在尝试为其获取标准差。
最后一列表示数据属于哪个调查组(列名=Respondants)。因为这些列有文本而不是整数,所以标准偏差 returns NaN。 skipna=True 在这种情况下不起作用。我需要保留该列,因为分析将在单个散点图中比较每个组的响应。我似乎无法找到一种方法来获得忽略该列的标准偏差。由于上述原因,我不想删除该列。
正在使用的代码是:
df1['std dev']=df.std(skipna=True)
df1.head()
我不确定我可以添加什么来忽略标准的“受访者”列。
编辑
我找到了一个解决方法,不是很理想,但它完成了工作。
我将我的数据分成 2 Excel 张,在每张中删除了有问题的列。然后执行我的标准偏差,将“Respondants”列添加回每个数据框并将它们合并到一个新的 DF 中。
尝试:
df.iloc[:, :-1].std()
在英语中,这意味着使用所有行,并使用除最后一列以外的所有行。
如果你想要每行的标准偏差,那么你需要:
df.iloc[:, :-1].std(axis=1)
我有一个数据框,其中包含多行调查响应值 (1 - 5),我正在尝试为其获取标准差。
最后一列表示数据属于哪个调查组(列名=Respondants)。因为这些列有文本而不是整数,所以标准偏差 returns NaN。 skipna=True 在这种情况下不起作用。我需要保留该列,因为分析将在单个散点图中比较每个组的响应。我似乎无法找到一种方法来获得忽略该列的标准偏差。由于上述原因,我不想删除该列。
正在使用的代码是:
df1['std dev']=df.std(skipna=True)
df1.head()
我不确定我可以添加什么来忽略标准的“受访者”列。
编辑
我找到了一个解决方法,不是很理想,但它完成了工作。
我将我的数据分成 2 Excel 张,在每张中删除了有问题的列。然后执行我的标准偏差,将“Respondants”列添加回每个数据框并将它们合并到一个新的 DF 中。
尝试:
df.iloc[:, :-1].std()
在英语中,这意味着使用所有行,并使用除最后一列以外的所有行。
如果你想要每行的标准偏差,那么你需要:
df.iloc[:, :-1].std(axis=1)