k-均值聚类与生存数据

k-means clustering with survival Data

只是一个关于生存数据的 k-means 聚类分析的基本问题,比如这个:

我正在做 k-means 聚类来识别基因对生存影响最大的聚类...但是我是将生存时间包括在我的 k-means 函数中还是应该将其忽略?所以我应该把它放到 kmeans() 函数中,例如在 R 中?

亲切的问候,

哈希里亚玛

我认为您的方法不是最好的方法。您的目标是 select 与 censored/uncensored 生存相关的基因。使用 supervised 方法似乎是最合适的。使用 k-means 只会根据相似性对基因进行聚类,而不会考虑生存,即使您想在建模中添加生存也没有意义,因为您忽略了审查。

有添加 L1 惩罚的 Cox 回归,允许变量 selection 而不会省略审查。这种方法似乎更适合实现您的目标,并且更适合您的情况。要了解更多信息,请参阅 Jiang Gui 和 Hongzhe Li 的一篇文章,其中使用了惩罚性 Cox 回归(如果需要,也可以查看 R 包 biospear): https://academic.oup.com/bioinformatics/article/21/13/3001/196819