【问题标题】:Labeling large set of paired training data标记大量配对训练数据
【发布时间】:2020-10-17 23:46:47
【问题描述】:

我正在训练一个模型来确定两个人是否相同。该模型应包含两个人(表示为数据框行)

我正在尝试标记配对数据 表格

Id  | age    | gender| occupation  | region | height | weight(kg)
100 | 16     | 0     | "plumber"   | na     | 169    | 20
300 | 50     | 1     | na          | africa | 12     | 90
Id  | age    | gender| occupation  | region | height | weight(kg)
100 | 16     | 0     | "plumber"   | na     | 169    | 20
700 | 100    | 0     | na          | africa | 12     | 90

这些对中的每一对都被发送到单独的 csv 文件中进行标记,因为我想训练一个分类器,该分类器接收成对的行,并将它们标记为重复或不重复。

如您所见,如果我只有 10 个人,这很快就会失控。 10 C 2 = 45 对。关于如何更轻松地标记数据的任何想法?

我曾考虑在 excel 中执行此操作,但我觉得打开这么多 excel 文件肯定会产生问题。

【问题讨论】:

    标签: python pandas labeling


    【解决方案1】:
    • 对数据框进行排序O(N*log(N))
    • 检查相邻行是否相等O(N)

    要对相邻行做一些事情,只需shift第一列位置;将每一行与原始行进行比较。

    【讨论】:

      【解决方案2】:

      所以我想通了,我只需要在excel中配对行, 即row1 特征、row2 特征、标签。 横向阅读这些功能很烦人,但如果我使用外接显示器或 2 就不会太糟糕了。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-12-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2020-05-27
        • 2021-06-23
        相关资源
        最近更新 更多