分类数据中的异常值?
Outliers in Categorical Data?
我无法找到在分类 data.My 数据中找到离群值的解决方案,该数据由 rows.I 的组合组成,想要标记与特定组合不同的离群值。
在上面指定的问题中,我无法将数据聚类为非离群数据行和离群行由相同的频率组成。
我的数据看起来像这样->
c1 c2 c3 c4
row1-> A B C ,D
row2-> A B C D,
row3-> A D C ,G
row4-> NU D E G,
row6-> NU D E X
请提出解决问题的有效逻辑。
我还尝试根据频率分发数据,但我无法分配阈值,因为我无法找到一个值来将数据视为 outliers.Providing 查找阈值的方法也有帮助。
分类数据没有离群值检测方法。 概念 在这种情况下没有任何意义。你可能会这样想:
You have a sample of 10 with 9 females and 1 male. You might think the male is the outlier it's just the composition of your sample, not an outlier.
要使异常值存在,必须对项目之间的距离进行度量。查看 this 了解更多信息。
Please suggest a valid logic to solve the issue. I Also tried to distribute the data based on frquency but i'm unable to assign a thresold as im unable to find a value to consider the data as outliers.Providing a way to find thresold also can help.
一个解决方案可能是只 value_counts
你的列,这样你就有了每个元素的频率。
我无法找到在分类 data.My 数据中找到离群值的解决方案,该数据由 rows.I 的组合组成,想要标记与特定组合不同的离群值。 在上面指定的问题中,我无法将数据聚类为非离群数据行和离群行由相同的频率组成。 我的数据看起来像这样->
c1 c2 c3 c4
row1-> A B C ,D
row2-> A B C D,
row3-> A D C ,G
row4-> NU D E G,
row6-> NU D E X
请提出解决问题的有效逻辑。 我还尝试根据频率分发数据,但我无法分配阈值,因为我无法找到一个值来将数据视为 outliers.Providing 查找阈值的方法也有帮助。
分类数据没有离群值检测方法。 概念 在这种情况下没有任何意义。你可能会这样想:
You have a sample of 10 with 9 females and 1 male. You might think the male is the outlier it's just the composition of your sample, not an outlier.
要使异常值存在,必须对项目之间的距离进行度量。查看 this 了解更多信息。
Please suggest a valid logic to solve the issue. I Also tried to distribute the data based on frquency but i'm unable to assign a thresold as im unable to find a value to consider the data as outliers.Providing a way to find thresold also can help.
一个解决方案可能是只 value_counts
你的列,这样你就有了每个元素的频率。