如何使用 fct_reorder 重新排序数据框中的一个因子?

how to reorder a factor in a dataframe with fct_reorder?

考虑以下示例

> library(forcats)
> library(dplyr)
> 
> 
> dataframe <- data_frame(var = c(1,1,1,2,3,4),
+                         var2 = c(10,9,8,7,6,5))
> dataframe
# A tibble: 6 x 2
    var  var2
  <dbl> <dbl>
1  1.00 10.0 
2  1.00  9.00
3  1.00  8.00
4  2.00  7.00
5  3.00  6.00
6  4.00  5.00

我创建了一个因子变量

> dataframe <- dataframe %>% mutate(myfactor = factor(var))
> 
> dataframe$myfactor
[1] 1 1 1 2 3 4
Levels: 1 2 3 4

我不明白根据在因子级别完成的一些其他计算重新排序该因子的正确语法(和逻辑)是什么。

例如,我想根据

的递减值重新排序我的因素
> data_rank <- dataframe %>% group_by(myfactor) %>% summarise(rank_var = mean(var2))

> data_rank
# A tibble: 4 x 2
  myfactor rank_var
  <fct>       <dbl>
1 1            9.00
2 2            7.00
3 3            6.00
4 4            5.00

所以 4 是第一位,3 是第二位,依此类推

使用 fct_reorder 执行此操作的语法是什么,其背后的逻辑是什么?

谢谢!

假设您的 dataframe 是:

dataframe <- data_frame(var = c(1,1,1,2,3,4),var2 = c(10,2,0,15,6,5))
dataframe <- dataframe %>% mutate(myfactor = factor(var))
dataframe$myfactor

[1] 1 1 1 2 3 4
Levels: 1 2 3 4

现在,如果您想重新排序 factor,其中 order 由某个 function 的输出给出fun 在某个 vector x 上,那么你可以通过以下方式使用 fct_reorder

dataframe$myfactor= fct_reorder(f = dataframe$myfactor,x = dataframe$var2,fun = mean)
dataframe$myfactor
[1] 1 1 1 2 3 4
Levels: 1 4 3 2

mean of dataframe$var2 for each factor 将默认按升序计算和排序以对因子进行排序。

为了理解 fct_reoder,我创建了一个类似但经过修改的数据框。

> dataframe <- data_frame(var = as.factor(c(1,2,3,2,3,1,4,1,2,3,4)),var2 = c(1,5,4,2,6,2,9,8,7,6,3))

> str(dataframe)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   11 obs. of  2 variables:
 $ var : Factor w/ 4 levels "1","2","3","4": 1 2 3 2 3 1 4 1 2 3 ...
 $ var2: num  1 5 4 2 6 2 9 8 7 6 ...

在这里我们可以看到有 2 列,第 1 列 (var) 作为因子变量,水平为 c(1,2,3,4)。

现在,如果要根据各自值 (var2) 的总和对因子重新排序,可以使用下面的 fct_reorder 函数。

为了得到有无fct_reorder的区别b/w。

起初,我们会在不使用 fct_reorder 的情况下根据它们的因子 (var) 对 var2 求和:

> dataframe %>% group_by(var) %>% summarise(var2=sum(var2))
# A tibble: 4 x 2
  var    var2
  <fct> <dbl>
1 1        11
2 2        14
3 3        16
4 4        12

这里我们可以看到结果并不是按照var2的总和排序的。

现在,我们将使用 fct_order 来显示差异。

> dataframe %>% mutate(var=fct_reorder(var,var2,sum)) %>%
+ group_by(var) %>% summarise(var2=sum(var2))
# A tibble: 4 x 2
  var    var2
  <fct> <dbl>
1 1        11
2 4        12
3 2        14
4 3        16

这表明求和现在已排序。

同样,fct_reorder 可用于按顺序绘制图形(箱线图或直方图等)