标记大量配对训练数据答案

【问题标题】：Labeling large set of paired training data标记大量配对训练数据
【发布时间】：2020-10-17 23:46:47
【问题描述】：

我正在训练一个模型来确定两个人是否相同。该模型应包含两个人（表示为数据框行）

我正在尝试标记配对数据表格

Id  | age    | gender| occupation  | region | height | weight(kg)
100 | 16     | 0     | "plumber"   | na     | 169    | 20
300 | 50     | 1     | na          | africa | 12     | 90

Id  | age    | gender| occupation  | region | height | weight(kg)
100 | 16     | 0     | "plumber"   | na     | 169    | 20
700 | 100    | 0     | na          | africa | 12     | 90

这些对中的每一对都被发送到单独的 csv 文件中进行标记，因为我想训练一个分类器，该分类器接收成对的行，并将它们标记为重复或不重复。

如您所见，如果我只有 10 个人，这很快就会失控。 10 C 2 = 45 对。关于如何更轻松地标记数据的任何想法？

我曾考虑在 excel 中执行此操作，但我觉得打开这么多 excel 文件肯定会产生问题。

【问题讨论】：

标签： python pandas labeling

【解决方案1】：

对数据框进行排序O(N*log(N))
检查相邻行是否相等O(N)

要对相邻行做一些事情，只需shift第一列位置；将每一行与原始行进行比较。

【讨论】：

【解决方案2】：

所以我想通了，我只需要在excel中配对行，即row1 特征、row2 特征、标签。横向阅读这些功能很烦人，但如果我使用外接显示器或 2 就不会太糟糕了。

【讨论】：