为监督机器学习选择样本答案

【问题标题】：Selecting samples for supervised machine learning为监督机器学习选择样本
【发布时间】：2015-08-26 10:36:50
【问题描述】：

如何为要通过应用监督学习解决的二元分类问题选择样本量和样本集（用于训练和测试）？

当前的实现基于 15 个二进制特征，我们可能会将其扩展到 20 个或可能 24 个二进制特征，以提高准确度指标。分类基于在决策表中的查找，我们希望将其替换为具有机器学习分类器的决策。部分目标也是衡量我们当前的准确度指标。

a) 监督训练选择的最小样本量是多少，以平衡所需的准确性和成本？ b) 我们如何选择用于训练/测试集的实际样本？

计算学习理论定义了给定假设空间的最小样本，即将错误保持在某个阈值以下的期望概率。请提供解释和应用这些公式的可能示例。

样本分类训练/测试集将由人工决定收集。所以，显然选择这个样本集是有成本的。当成本和收益无法轻易写在纸上时，为项目提供资金变得更加困难。

【问题讨论】：

抱歉，恕我直言，这是一个非常棘手的问题，很大程度上取决于具体情况。无论如何，我认为您不会找到适合它的网站。
(a) 部分需要进一步澄清 - 您已经有一个数据集，并且您想知道该集的训练部分应该有多大，或者您没有任何数据并且想要知道你需要收集多少？ (b) 部分的答案很简单：您应该尽可能随机地划分整个数据。这给你大约。训练集和测试集中的类分布相同。
(a) 是关于计算学习理论的。对于具有 n 个二元特征的二元分类问题，我应用各种公式中的哪一个来确定监督机器学习的训练集的最小样本量。这以 epsilon 和 delta 的错误率作为将错误率保持在所需错误率以下的概率。二元分类决策的第 1 类和第 2 类的分布必须在将哪些样本输入训练集方面发挥一些作用。如何为 n 个二元特征选择集合本身以及样本本身？
此外，有监督的学习决策涉及成本。如何通过选择最佳样本集（而不仅仅是最小集）来平衡成本/收益，以实现所需的错误率 epsilon / 错误 delta 的概率低于所需的错误率？这无需经过多次迭代从而最大限度地降低项目成本？

标签： sample feature-selection supervised-learning

【解决方案1】：

没有简单的方法来确定最小样本量，因为在机器学习方面没有关于样本量的硬性规定。许多分类器可以应用于二元分类，例如支持向量机，并且有许多可以应用的采样技术，具体取决于数据的结构、基础系统和分析的目的。您对集合选择本身的引用有些令人困惑：您是在问如何确定构建准确分类器所需的最小数据量？答案取决于所使用的分类器和分类器的学习能力。此外，即使您获得足够的错误率，在较小模型上训练的模型也可能无法像在较大模型上训练的模型那样泛化，因此如果您主要对以前未见过的记录的准确分类感兴趣，则需要牢记这一点。至于选择训练样本集，这取决于数据的结构和使用的采样方法。由于过度拟合，您可能更喜欢在训练模型时使用交叉验证技术。

【讨论】：