【发布时间】:2020-10-17 23:46:47
【问题描述】:
我正在训练一个模型来确定两个人是否相同。该模型应包含两个人(表示为数据框行)
我正在尝试标记配对数据 表格
Id | age | gender| occupation | region | height | weight(kg)
100 | 16 | 0 | "plumber" | na | 169 | 20
300 | 50 | 1 | na | africa | 12 | 90
Id | age | gender| occupation | region | height | weight(kg)
100 | 16 | 0 | "plumber" | na | 169 | 20
700 | 100 | 0 | na | africa | 12 | 90
这些对中的每一对都被发送到单独的 csv 文件中进行标记,因为我想训练一个分类器,该分类器接收成对的行,并将它们标记为重复或不重复。
如您所见,如果我只有 10 个人,这很快就会失控。 10 C 2 = 45 对。关于如何更轻松地标记数据的任何想法?
我曾考虑在 excel 中执行此操作,但我觉得打开这么多 excel 文件肯定会产生问题。
【问题讨论】: