聚类标签的无偏预测
Unbiased prediction of cluster labels
我有兴趣评估通过无监督聚类发现的聚类标签的可预测性。假设我有一个由患者组成的数据集,我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了 4 个集群。现在,我想知道这个集群成员是否可以从表达式数据中预测出来。使用全数据无监督集群标签作为输出变量,我以交叉验证的方式训练监督分类器。因此,我使用 80% 的数据训练分类器,并评估其他 20% 的准确性。
这种方法是否有偏差,因为输出的簇标签是从完整数据中学习的?如果是,我怎样才能公正地做到这一点?如果我以交叉验证的方式进行聚类,我想我需要手动关联每个不同折叠之间的聚类。由于我对四个聚类中的一个与其他聚类的可预测性特别感兴趣,因此我必须通过某种手动分析找出数据的每个折叠聚类中的哪个聚类。
老实说,整个问题似乎都不对。如果您有一种算法(聚类技术)可以构建一些数据分区,那么它 总是 可以通过监督方法进行预测。事实上,根据所用集群家族的知识 - 可以提出完美的分类器(准确率接近 100%)。您应该重新考虑问题陈述。特别是,通过添加一些限制元素 必须 放置在同一个集群中,每个聚类技术都可以转化为分类器。因此,如果您使用聚类器 C
,那么可以简单地将 C
转换为半监督方法,其中 必须 根据给定的标签对训练集中获得的元素进行聚类.这样我们将几乎总是创建完全相同的标签,从而达到 100% 的准确率。
创建有效假设的唯一方法是由某些专家分配这些 标签,因为那样我们就无法构建 "an expert with constraints" 的分类器。因此,上述推理将失败。换句话说 - 如果您想测试某些标签是否可以监督方式预测,您需要以难以建模的方式获取这些标签(例如人类专家,自然,物理、实验、昂贵的数值评估)而不是像聚类模型这样简单的东西,因为监督学习的重点是找到这个底层模型。如果事先知道这个模型(不是算法本身,而是我们),那么整个推理都是不正确的。您只需回答以下问题:
Is the family of models analyzed by selected clustering technique similar to the family of used classifier's hypothesis space.
或更正式
Is used classifier consistant with the distribution induced by the selected clustering algorithm ran on a considered dataset.
我有兴趣评估通过无监督聚类发现的聚类标签的可预测性。假设我有一个由患者组成的数据集,我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了 4 个集群。现在,我想知道这个集群成员是否可以从表达式数据中预测出来。使用全数据无监督集群标签作为输出变量,我以交叉验证的方式训练监督分类器。因此,我使用 80% 的数据训练分类器,并评估其他 20% 的准确性。
这种方法是否有偏差,因为输出的簇标签是从完整数据中学习的?如果是,我怎样才能公正地做到这一点?如果我以交叉验证的方式进行聚类,我想我需要手动关联每个不同折叠之间的聚类。由于我对四个聚类中的一个与其他聚类的可预测性特别感兴趣,因此我必须通过某种手动分析找出数据的每个折叠聚类中的哪个聚类。
老实说,整个问题似乎都不对。如果您有一种算法(聚类技术)可以构建一些数据分区,那么它 总是 可以通过监督方法进行预测。事实上,根据所用集群家族的知识 - 可以提出完美的分类器(准确率接近 100%)。您应该重新考虑问题陈述。特别是,通过添加一些限制元素 必须 放置在同一个集群中,每个聚类技术都可以转化为分类器。因此,如果您使用聚类器 C
,那么可以简单地将 C
转换为半监督方法,其中 必须 根据给定的标签对训练集中获得的元素进行聚类.这样我们将几乎总是创建完全相同的标签,从而达到 100% 的准确率。
创建有效假设的唯一方法是由某些专家分配这些 标签,因为那样我们就无法构建 "an expert with constraints" 的分类器。因此,上述推理将失败。换句话说 - 如果您想测试某些标签是否可以监督方式预测,您需要以难以建模的方式获取这些标签(例如人类专家,自然,物理、实验、昂贵的数值评估)而不是像聚类模型这样简单的东西,因为监督学习的重点是找到这个底层模型。如果事先知道这个模型(不是算法本身,而是我们),那么整个推理都是不正确的。您只需回答以下问题:
Is the family of models analyzed by selected clustering technique similar to the family of used classifier's hypothesis space.
或更正式
Is used classifier consistant with the distribution induced by the selected clustering algorithm ran on a considered dataset.