在小数据集和大数据集之间选择最佳拟合答案

【问题标题】：choose the best fit between small dataset and large dataset在小数据集和大数据集之间选择最佳拟合
【发布时间】：2019-12-13 16:29:55
【问题描述】：

我目前正在做一个小项目。

所以我的问题是我有多个交付合作伙伴，并且有两个参数，首先是每个交付合作伙伴分配的总订单及其成功率。

喜欢

Partner | Total Order Assigned | Success Rate(IN percent)
A       | 100                  | 70
B       | 10                   | 50
C       | 50                   | 40
D       | 4                    | 90

因此，如果有新订单到货，我想根据成功率和迄今为止分配的总订单将该订单分配给其中一个交付合作伙伴。所以在上面的例子中，D 的成功率最高，但只分配了 4 个订单，但 A 分配的订单更多，成功率也不错。

那么我该如何解决这个问题。

提前谢谢...

【问题讨论】：

@desertnaut 为什么不将此问题迁移到交叉验证或数据科学？还是让用户去那里问？
@user2160809 因为恕我直言，这个问题也太宽泛了； CV 和 DS（如 SO）不是“随随便便”...
好的，我想我现在明白你的意思了。您的意思不仅是广泛的，而且还不是那么好的表述。我明白你的意思..

标签： machine-learning data-science data-analysis

【解决方案1】：

这是一个不平衡的分类问题。有很多方法可以处理这个问题，比如过采样/欠采样https://stats.stackexchange.com/questions/317601/how-to-deal-with-a-highly-unbalanced-classification-problem

我不确定您是否可以使用包含 4 个样本的类别进行机器学习，因此您实际上可能最终完全忽略了这个交付合作伙伴。选择模型时可以查看 scikit-learn 备忘单 https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

【讨论】：

@aayush 我还不能对这个问题发表评论，但有人可以将问题移到交叉验证而不是投票给我的答案:)
非常感谢@user2160809。但是您能否简要解释一下在这种情况下如何应用过采样。
@aayush 这样的问题最好在交叉验证stats.stackexchange.com 中提出，但无论如何我认为我不会对 4 个样本进行过采样
好的！谢谢@user2160809 btw，我现在已经在那里问过了。