【发布时间】:2018-09-08 18:06:46
【问题描述】:
我了解如何使用随机状态将数据随机拆分为训练集和测试集。正如预期的那样,我的算法每次更改时都会给出不同的准确性。现在我必须在我的大学提交一份报告,我无法理解最终的准确性。我应该选择我得到的最大准确度吗?或者我应该使用不同的 RandomStates 运行它,然后取其平均值?还是别的什么?
【问题讨论】:
-
他们没有在问题或答案的初始部分指定特定的随机状态吗?
-
最终,您正在构建一个模型,希望它对新的、看不见的数据具有强大的性能。如果你建立了一个好的模型,那么准确率不应该因随机状态而变化太大。如果您看到剧烈波动,那么您的模型并不好。在我看来,报告最大准确度会很糟糕,因为它不能代表真实世界的预期性能。我的建议是取一些运行次数的平均值或做 k 倍 CV,但也要报告标准偏差。
-
@MaxU 其实这是我自己选择的一个小项目。这是我大学三年级课程的一部分。
标签: python pandas machine-learning scikit-learn svm