可变筛选连续结果、分类预测因子、负 p 值

Question

我正在尝试使用大型表达式数据集（列中的所有分类变量）找到一组好的分类变量来预测二元结果。每个受试者在几个但不是所有时间点（研究中的 T1-T7）进行测量。每个主题都有一个特定的 ID。为此，我决定使用 MXM::MMPC.timeclass()。但是，它会产生负的 p 值。据我了解，p 值……根据定义，概率不能为负。他们真的不能，这是显而易见的。

我已经尝试 MMPC.timeclass() 并进行了广泛的文献搜索以找到另一种可能合适的方法，但目前还没有任何结果。

set.seed(5)
## assume these are longitudinal data, each column is a variable (or feature)
dataset <- matrix( rnorm(400 * 100), ncol = 100 ) 
id <- rep(1:80, each = 5)  ## 80 subjects
reps <- rep( seq(4, 12, by = 2), 80)

## 5 time points for each subject
## dataset contains are the regression coefficients of each subject's values on the 
## reps (which is assumed to be time in this example)
target <- rep(0:1, each = 200)
a <- MMPC.timeclass(target, reps, id, dataset)
a@pvalues %>% summary()

    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-4.01762 -1.39835 -0.68720 -0.98512 -0.37326 -0.01365

预期结果应包括 p 值（在 0-1 范围内）或更好，包括筛选过程中每个变量的某种类型的排名。我以前用过 VariableScreening::ScreenLD()，但这是一个分类结果，因此不适合数据。

Answer 1

答案是它们是对数 p-values。文档将相应更新。请参阅 https://github.com/mensxmachina/MXM-R-Package/issues/2 以获取软件包作者的回复。

可变筛选连续结果、分类预测因子、负 p 值

Variable screening continuous outcomes, categorical predictor, negative p-values

r

feature-selection

categorical-data

longitudinal