无法确定如何测试批量 RNA 测序数据中的差异

Trouble Deciding How to Test for Variance in Bulk RNA sequencing Data

我有一些批量 RNA 测序数据需要对其进行差异表达显着性测试。我有两个条件,WT 和 KO,每个条件有两个重复,给我一个如下所示的数据框(列数):

       WT1   WT2   KO1   KO2
 gene1 1.3   1.23  3.42  3.45
 gene2 2.6   2.54  1.22  1.21
 gene3 5.54  2.32  1.21  1.10 

我的问题是,如何在右侧获得一个列,其中包含每个基因的 p 值,以便我可以构建数据的火山图?基本上,我需要使用什么统计测试来生成该列,我在 R 中使用什么函数来这样做?如果从技术上讲这不是我应该在这里问的问题,我很抱歉,但坦率地说,我不知道还能去哪里 post。提前致谢!

以防万一有人最终关心这个问题,而我不只是尖叫到以太(按照惯例),我想出了这个。基本上,对于这种数据,我需要使用单向方差分析检验或双尾 t 检验,这基本上最终是同一件事(至少在这种情况下)。我决定使用 R 中的 t.test() 函数,因为它更容易理解(至少如果你对 R 中的统计信息不是很熟悉的话)。通常,t.test 函数会生成如下所示的摘要:

 Welch Two Sample t-test

 data:  bulk_data[1, 1:2] and bulk_data[1, 3:4]
 t = -0.93364, df = 1.1978, p-value = 0.5002
 alternative hypothesis: true difference in means is not equal to 0
 95 percent confidence interval:
  -0.3807992  0.3068266
 sample estimates:
  mean of x  mean of y 
 0.09525708 0.13224335 

我需要删除 p 值对象并将其添加到数据框的第五列,所以我使用了这个循环:

  for (i in 1:nrow(bulk_data)) {
   t <- t.test(x = bulk_data[i, 1:2], y = bulk_data[i, 3:4], alternative = "two.sided")
   bulk_data[i, 5] <- t$p.value
  }

这在第五列中为我提供了一个非常好的 p 值列表。