标记大量配对训练数据

Labeling large set of paired training data

我正在训练一个模型来确定两个人是否相同。该模型应该容纳两个人(表示为数据框行)

我正在尝试标记配对数据 表格

Id  | age    | gender| occupation  | region | height | weight(kg)
100 | 16     | 0     | "plumber"   | na     | 169    | 20
300 | 50     | 1     | na          | africa | 12     | 90
Id  | age    | gender| occupation  | region | height | weight(kg)
100 | 16     | 0     | "plumber"   | na     | 169    | 20
700 | 100    | 0     | na          | africa | 12     | 90

这些对中的每一对都被发送到单独的 csv 文件以进行标记,因为我想训练一个分类器,该分类器接受成对的人行,并将它们标记为重复项或不重复项。

如您所见,如果我只有 10 个人,这很快就会失控。 10 C 2 = 45 对。关于如何更轻松地标记数据有什么想法吗?

我曾在 excel 中考虑过这样做,但我觉得打开这么多 excel 文件肯定会产生问题。

  • 对数据框进行排序O(N*log(N))
  • 检查相邻行是否相等O(N)

要对相邻行进行操作,只需 shift 列的第一个位置;将每一行与原始行进行比较。

所以我想通了,我只需要将 excel 中的行配对, 即第 1 行特征、第 2 行特征、标签。 水平阅读功能很烦人,但如果我使用外接显示器或 2 并不可怕。