【发布时间】:2015-08-26 10:36:50
【问题描述】:
如何为要通过应用监督学习解决的二元分类问题选择样本量和样本集(用于训练和测试)?
当前的实现基于 15 个二进制特征,我们可能会将其扩展到 20 个或可能 24 个二进制特征,以提高准确度指标。分类基于在决策表中的查找,我们希望将其替换为具有机器学习分类器的决策。部分目标也是衡量我们当前的准确度指标。
a) 监督训练选择的最小样本量是多少,以平衡所需的准确性和成本? b) 我们如何选择用于训练/测试集的实际样本?
计算学习理论定义了给定假设空间的最小样本,即将错误保持在某个阈值以下的期望概率。请提供解释和应用这些公式的可能示例。
样本分类训练/测试集将由人工决定收集。所以,显然选择这个样本集是有成本的。当成本和收益无法轻易写在纸上时,为项目提供资金变得更加困难。
【问题讨论】:
-
抱歉,恕我直言,这是一个非常棘手的问题,很大程度上取决于具体情况。无论如何,我认为您不会找到适合它的网站。
-
(a) 部分需要进一步澄清 - 您已经有一个数据集,并且您想知道该集的训练部分应该有多大,或者您没有任何数据并且想要知道你需要收集多少? (b) 部分的答案很简单:您应该尽可能随机地划分整个数据。这给你大约。训练集和测试集中的类分布相同。
-
(a) 是关于计算学习理论的。对于具有 n 个二元特征的二元分类问题,我应用各种公式中的哪一个来确定监督机器学习的训练集的最小样本量。这以 epsilon 和 delta 的错误率作为将错误率保持在所需错误率以下的概率。二元分类决策的第 1 类和第 2 类的分布必须在将哪些样本输入训练集方面发挥一些作用。如何为 n 个二元特征选择集合本身以及样本本身?
-
此外,有监督的学习决策涉及成本。如何通过选择最佳样本集(而不仅仅是最小集)来平衡成本/收益,以实现所需的错误率 epsilon / 错误 delta 的概率低于所需的错误率?这无需经过多次迭代从而最大限度地降低项目成本?
标签: sample feature-selection supervised-learning