标记大量配对训练数据
Labeling large set of paired training data
我正在训练一个模型来确定两个人是否相同。该模型应该容纳两个人(表示为数据框行)
我正在尝试标记配对数据
表格
Id | age | gender| occupation | region | height | weight(kg)
100 | 16 | 0 | "plumber" | na | 169 | 20
300 | 50 | 1 | na | africa | 12 | 90
Id | age | gender| occupation | region | height | weight(kg)
100 | 16 | 0 | "plumber" | na | 169 | 20
700 | 100 | 0 | na | africa | 12 | 90
这些对中的每一对都被发送到单独的 csv 文件以进行标记,因为我想训练一个分类器,该分类器接受成对的人行,并将它们标记为重复项或不重复项。
如您所见,如果我只有 10 个人,这很快就会失控。 10 C 2 = 45 对。关于如何更轻松地标记数据有什么想法吗?
我曾在 excel 中考虑过这样做,但我觉得打开这么多 excel 文件肯定会产生问题。
- 对数据框进行排序O(N*log(N))
- 检查相邻行是否相等O(N)
要对相邻行进行操作,只需 shift
列的第一个位置;将每一行与原始行进行比较。
所以我想通了,我只需要将 excel 中的行配对,
即第 1 行特征、第 2 行特征、标签。
水平阅读功能很烦人,但如果我使用外接显示器或 2 并不可怕。
我正在训练一个模型来确定两个人是否相同。该模型应该容纳两个人(表示为数据框行)
我正在尝试标记配对数据 表格
Id | age | gender| occupation | region | height | weight(kg)
100 | 16 | 0 | "plumber" | na | 169 | 20
300 | 50 | 1 | na | africa | 12 | 90
Id | age | gender| occupation | region | height | weight(kg)
100 | 16 | 0 | "plumber" | na | 169 | 20
700 | 100 | 0 | na | africa | 12 | 90
这些对中的每一对都被发送到单独的 csv 文件以进行标记,因为我想训练一个分类器,该分类器接受成对的人行,并将它们标记为重复项或不重复项。
如您所见,如果我只有 10 个人,这很快就会失控。 10 C 2 = 45 对。关于如何更轻松地标记数据有什么想法吗?
我曾在 excel 中考虑过这样做,但我觉得打开这么多 excel 文件肯定会产生问题。
- 对数据框进行排序O(N*log(N))
- 检查相邻行是否相等O(N)
要对相邻行进行操作,只需 shift
列的第一个位置;将每一行与原始行进行比较。
所以我想通了,我只需要将 excel 中的行配对, 即第 1 行特征、第 2 行特征、标签。 水平阅读功能很烦人,但如果我使用外接显示器或 2 并不可怕。