【发布时间】:2015-08-28 23:23:37
【问题描述】:
目前,我正在尝试在 Python 中实现一个基本的逻辑回归算法来区分 A 和 B。
对于我的训练和测试数据,我有大约 50,000 个 A 样本和 1000 个 B 样本。如果我使用每个数据的一半来训练算法,另一半作为测试数据(25000 训练A, 500 train B 以此类推,用于测试准确性)。
如果是这样,我该如何克服这个问题。我是否应该考虑重新采样,做一些其他“花哨的事情”。
【问题讨论】:
-
样本A和B的数据有区别吗?还是这些样本来自同一个数据集,而您抢先将它们分成单独的样本,目的是让一个用于训练,另一个用于测试?
-
没有区别。样本 A 和 B 来自同一来源,但数据不同,因为每个样本中发生了不同的事情(例如,样本 A 在您健康时有数据,样本 B 在您生病时有数据)
标签: python-2.7 machine-learning statistics logistic-regression