如何在未标记的数据集中找到最有希望在构建分类器时提供信息的实例?

How to find instances in an unlabeled dataset, that are most promising to be informative when building a classifier?

我的问题是我有一个很大的未标记数据集,但随着时间的推移我希望它被标记并构建一个自信的分类器。

这可以通过主动学习来完成,但是主动学习需要为其构建一个初始分类器,然后根据它们对分类器的预期信息量来估计和排名剩余的未标记实例。

要构建初始分类器,我需要手动标记一些示例。我的问题是:在没有初始分类器帮助的情况下,是否有方法可以在初始未标记数据集中找到可能提供信息的示例?

我想过只对一些集群使用 k-means,运行 它并从每个集群中标记一个示例,然后在这些上训练分类器。 有没有更好的方法?

没有。如果您没有 any 标记数据,则无法确定哪些点提供的信息最多。 k-means 也不一定有帮助,因为您不知道决策面在哪里。

你想多了。只需随机抽取一些数据并将其标记即可。一旦你有几十万个标记点,你就可以开始查看标记的数据并决定下一步要去哪里。

我不同意爱德华·拉夫的观点。

k-means 在这里可能很有用(如果您的数据是连续的)。

只需使用较大的 k 值即可。

这个想法是为了避免选择过于相似的对象,但要获得一个相当好地覆盖数据的样本。 k-means 可能无法 "cluster" 复杂数据,但它对于 量化 工作得相当好。因此它将 return 从您的数据中提取 "less random, more representative" 个样本。

但要注意:k-means 中心不对应数据点。您可以使用基于中心点的算法,或者只找到每个中心的关闭实例。

一些备选方案:

  • 如果您负担得起标记 "a" 个对象,运行 k-means with k=a
  • 运行 k-means k=5*a,select 20% 的中心(可能更喜欢那些密度最高的中心)
  • 通过k-means选择0.5*a,随机选择0.5*a
  • 两者都做,但只选择 0.5*a 个对象进行标记。训练分类器,找到分类器置信度最低的 0.5*a 个未标记对象