【问题标题】:Can Training dataset and testing data set be seperate instead of split [closed]训练数据集和测试数据集可以分开而不是拆分吗?
【发布时间】:2021-05-17 16:36:22
【问题描述】:

我们能否为训练和测试提供单独的数据集。 我正在做一个项目来挑选有效的测试用例 作为其中的一部分,我分析了错误数据库并提出了产生错误并到达模型的触发器。所以这个错误数据库形成了我的训练集。 我编写的测试用例是我的测试数据,我必须将此测试数据提供给模型以说明测试用例是否有效。 所以在这种情况下,我必须有两个不同的数据集(来自错误数据库的测试数据)和训练数据(手动生成的测试用例),而不是将数据集拆分为训练和测试数据 这是可以使用机器学习实现的吗?请告诉我。

【问题讨论】:

  • 我投票结束这个问题,因为它与 help center 中定义的编程无关,而是关于 ML 理论和/或方法 - 请参阅 machine-learning @ 中的介绍和注意事项987654322@.

标签: machine-learning data-science data-science-experience


【解决方案1】:

是的,训练数据集和测试数据集可以是单独的文件。在现实世界的案例中,测试数据通常是一些单独的看不见的数据集。

要遵循的主要原则是,在训练模型时,必须将数据集分开(保留集)以进行测试。这些数据可以在不同的文件、数据库中单独提供,甚至可以使用拆分生成。这样做是为了避免数据泄漏(当测试数据以某种方式用于训练模型时)。

【讨论】:

  • 非常感谢您提供的信息。所以从bug分析中,我们应该能够对数据进行分类(多类)分类,并得出一个模型,可以将测试用例(训练集)输入到该模型中,从而得到有效的测试用例。
  • 是的,在您的训练数据集上进行训练,并使用训练后的模型对测试数据进行预测。
猜你喜欢
  • 2018-06-04
  • 1970-01-01
  • 2022-10-23
  • 1970-01-01
  • 2022-06-25
  • 2018-01-21
  • 2023-02-12
  • 2019-05-01
  • 2019-04-22
相关资源
最近更新 更多