具有巨大维度数据的遗传学示例

Genetics example with huge dimensional data

我正在寻找一个巨大维度列联表的真实示例,其中行数和列数是数千或数百万。并且这两个随机变量是有序的(不是名义上的)。

稀疏数据有这样的问题吗?说,我们需要在列联表中测试两个序数随机变量 X 和 Y 的独立性,其中 X 或 Y 或两者都是维度 1000 (1000000) 并且表的输入包含许多没有观测值的单元格?

我认为生物学中可能有一些例子,但我对此一无所知。谁能推荐一个?

我不确定我是否完全理解你的问题(这些统计术语对我来说有些陌生);但是,您寻找的数据的一个例子可能是转录组数据。术语 "transcriptomic data" 是指对生物体细胞中存在的 RNA 数量的测量。像这样的数据集的轴通常是基因(编码特定 RNA 链的基因)按时间(body 中进行测量的细胞类型,例如心脏、肺)按时间(测量细胞的时间点)。

不幸的是,细胞轴不是序数轴而是名义轴。其他两个轴绝对是有序的。我想这也是一个 3 维张量而不是 2 维矩阵。

大约有20000个基因,随着我们测序技术的提高,时间轴显然可以变得很大。

这种数据通常非常稀疏。不仅细胞倾向于 "express" [1] 每个基因,而且我们还怀疑有时 RNA 的量太低而无法可靠地测量它!这会导致有趣的统计问题,其中需要对稀疏性和低测量计数进行建模!

wikipedia page on RNA-Seq is an OK introduction. Moreover, if you're interested in the fusion of biology and math and computer science, you might find the lectures at Models Inference and Algorithms 很有趣,特别是你可能喜欢 Kharchenko 的演讲 "From one to millions of cells: computational challenges in single-cell analysis"!

[1]表达式"express a gene"意味着细胞实际上将基因转录成相应的RNA而不是忽略它