从r中数据文件的列中提取最常出现的元素
Extracting most frequent occurring elements from column in datafile in r
我有一个大型数据集,我需要从中生成特定的图表。这是我的分析设备生成的一个数字数据集。我目前正在编写一个能够自动分析这些数据集的函数,为此我可以使用数据集中名为 "Labels".
的列
当我使用 table()
函数时,我得到 "Labels" 列的内容和频率,我得到以下内容:
> table(datafile$Label)
Blank C1 C2 C3a C3b C3c C4 DI E1 E2 E3 High Low Medium Mid
11 9 9 9 9 9 9 3 9 9 9 3 3 3 13
P pH3 pH5 pH7 pH9 test Test
9 5 5 5 5 2 1
我想做的是创建一个向量,我也将其称为 "Labels",它只包含出现频率为 5 或更多的标签。
然后我正在考虑使用 1 到 "Labels" 长度的 for 循环,并使用规则 datafile$Labels == Labels[n]
对数据 table 进行子集化,其中 n = 1:length(Labels)
,依次为每个感兴趣的标签创建图表。
是否有特定的函数可以从可以设置条件的列中提取出现五次或更多次的元素?因此,根据我的示例,我的新 "Labels" 向量如下所示:
> Labels
[1] "Blank" "C1" "C2" "C3a" "C3b" "C3c" "C4" "E1" "E2" "E3" "P" "pH3" "pH5" "pH7" "pH9"
所有建议将不胜感激。
谢谢。
我们可以用逻辑条件对 table
进行子集化,得到 names
tbl <- table(dataFile$Label)
names(tbl)[tbl > 5]
我有一个大型数据集,我需要从中生成特定的图表。这是我的分析设备生成的一个数字数据集。我目前正在编写一个能够自动分析这些数据集的函数,为此我可以使用数据集中名为 "Labels".
的列当我使用 table()
函数时,我得到 "Labels" 列的内容和频率,我得到以下内容:
> table(datafile$Label)
Blank C1 C2 C3a C3b C3c C4 DI E1 E2 E3 High Low Medium Mid
11 9 9 9 9 9 9 3 9 9 9 3 3 3 13
P pH3 pH5 pH7 pH9 test Test
9 5 5 5 5 2 1
我想做的是创建一个向量,我也将其称为 "Labels",它只包含出现频率为 5 或更多的标签。
然后我正在考虑使用 1 到 "Labels" 长度的 for 循环,并使用规则 datafile$Labels == Labels[n]
对数据 table 进行子集化,其中 n = 1:length(Labels)
,依次为每个感兴趣的标签创建图表。
是否有特定的函数可以从可以设置条件的列中提取出现五次或更多次的元素?因此,根据我的示例,我的新 "Labels" 向量如下所示:
> Labels
[1] "Blank" "C1" "C2" "C3a" "C3b" "C3c" "C4" "E1" "E2" "E3" "P" "pH3" "pH5" "pH7" "pH9"
所有建议将不胜感激。
谢谢。
我们可以用逻辑条件对 table
进行子集化,得到 names
tbl <- table(dataFile$Label)
names(tbl)[tbl > 5]