【问题标题】:Computational Logistic Regression With Python, Different Sample Sizes使用 Python 进行计算逻辑回归,不同的样本大小
【发布时间】:2015-08-28 23:23:37
【问题描述】:

目前,我正在尝试在 Python 中实现一个基本的逻辑回归算法来区分 A 和 B。

对于我的训练和测试数据,我有大约 50,000 个 A 样本和 1000 个 B 样本。如果我使用每个数据的一半来训练算法,另一半作为测试数据(25000 训练A, 500 train B 以此类推,用于测试准确性)。

如果是这样,我该如何克服这个问题。我是否应该考虑重新采样,做一些其他“花哨的事情”。

【问题讨论】:

  • 样本A和B的数据有区别吗?还是这些样本来自同一个数据集,而您抢先将它们分成单独的样本,目的是让一个用于训练,另一个用于测试?
  • 没有区别。样本 A 和 B 来自同一来源,但数据不同,因为每个样本中发生了不同的事情(例如,样本 A 在您健康时有数据,样本 B 在您生病时有数据)

标签: python-2.7 machine-learning statistics logistic-regression


【解决方案1】:

问题的严重程度取决于数据的性质。更大的问题是你只是有一个巨大的类不平衡(50 As for each B)。如果你最终获得了良好的分类准确度,那很好 - 无事可做。接下来要做什么取决于您的数据和问题的性质以及解决方案中可接受的内容。对于这个问题,确实没有固定的“这样做”答案。

【讨论】:

  • 准确率很低,不知道是不是因为这个问题?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2020-09-27
  • 2021-08-20
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-06-06
相关资源
最近更新 更多