分类数据中的异常值?

Outliers in Categorical Data?

我无法找到在分类 data.My 数据中找到离群值的解决方案,该数据由 rows.I 的组合组成,想要标记与特定组合不同的离群值。 在上面指定的问题中,我无法将数据聚类为非离群数据行和离群行由相同的频率组成。 我的数据看起来像这样->

      c1 c2 c3  c4
row1-> A  B  C ,D
row2-> A  B  C  D, 
row3-> A  D  C ,G
row4-> NU D  E  G,
row6-> NU D  E  X  

请提出解决问题的有效逻辑。 我还尝试根据频率分发数据,但我无法分配阈值,因为我无法找到一个值来将数据视为 outliers.Providing 查找阈值的方法也有帮助。

分类数据没有离群值检测方法。 概念 在这种情况下没有任何意义。你可能会这样想:

You have a sample of 10 with 9 females and 1 male. You might think the male is the outlier it's just the composition of your sample, not an outlier.

要使异常值存在,必须对项目之间的距离进行度量。查看 this 了解更多信息。

Please suggest a valid logic to solve the issue. I Also tried to distribute the data based on frquency but i'm unable to assign a thresold as im unable to find a value to consider the data as outliers.Providing a way to find thresold also can help.

一个解决方案可能是只 value_counts 你的列,这样你就有了每个元素的频率。