从r中数据文件的列中提取最常出现的元素

Question

我有一个大型数据集，我需要从中生成特定的图表。这是我的分析设备生成的一个数字数据集。我目前正在编写一个能够自动分析这些数据集的函数，为此我可以使用数据集中名为 "Labels".

的列

当我使用 table() 函数时，我得到 "Labels" 列的内容和频率，我得到以下内容：

> table(datafile$Label)

 Blank     C1     C2    C3a    C3b    C3c     C4     DI     E1     E2     E3   High    Low Medium    Mid 
    11      9      9      9      9      9      9      3      9      9      9      3      3      3     13 
     P    pH3    pH5    pH7    pH9   test   Test 
     9      5      5      5      5      2      1

我想做的是创建一个向量，我也将其称为 "Labels"，它只包含出现频率为 5 或更多的标签。

然后我正在考虑使用 1 到 "Labels" 长度的 for 循环，并使用规则 datafile$Labels == Labels[n] 对数据 table 进行子集化，其中 n = 1:length(Labels)，依次为每个感兴趣的标签创建图表。

是否有特定的函数可以从可以设置条件的列中提取出现五次或更多次的元素？因此，根据我的示例，我的新 "Labels" 向量如下所示：

> Labels

[1]    "Blank" "C1" "C2" "C3a" "C3b" "C3c" "C4" "E1" "E2" "E3" "P" "pH3" "pH5" "pH7" "pH9"

所有建议将不胜感激。

谢谢。

Answer 1

我们可以用逻辑条件对 table 进行子集化，得到 names

tbl <- table(dataFile$Label)
names(tbl)[tbl > 5]

从r中数据文件的列中提取最常出现的元素

Extracting most frequent occurring elements from column in datafile in r

r

subset

frequency-analysis

data-extraction