【发布时间】:2017-06-14 23:20:12
【问题描述】:
我在一次采访中被要求在机器学习的帮助下解决一个用例。我必须使用机器学习算法来识别交易中的欺诈行为。我的训练数据集有 100,200 笔交易,其中 100,000 笔是合法交易,200 笔是欺诈。
我不能将数据集作为一个整体来制作模型,因为这将是一个有偏见的数据集,而模型将是一个非常糟糕的模型。
比如说,我抽取了 200 个很好的交易样本,这些交易很好地代表了数据集(良好的交易)和 200 个欺诈交易,并使用它作为训练数据来制作模型。
我被问到的问题是,我如何将 200 条良好交易扩大到 100,000 条良好记录的整个数据集,以便我的结果可以映射到所有类型的交易。我从来没有解决过这种情况,所以我不知道如何处理它。
任何关于我如何去做的指导都会有所帮助。
【问题讨论】:
标签: machine-learning