【发布时间】:2015-02-04 22:52:39
【问题描述】:
我正在使用一个数据集,其中包含 12 个属性,包括时间戳和一个作为输出的属性。它也有大约4000行。此外,记录中没有重复。我正在尝试训练一个随机森林来预测输出。为此,我创建了两个不同的数据集:
- 一个:随机选择 80% 的数据用于训练,另外 20% 用于测试。
- 二:根据时间戳对数据集进行排序,然后前 80% 用于训练,后 20% 用于测试。
然后我从两个数据集中删除了时间戳属性,并将其他 11 个属性用于训练和测试(我确信时间戳不应该是训练的一部分)。
结果:这两个数据集的结果完全不同。第一个AUC(曲线下面积)是85%-90%(我做了几次实验),第二个是45%-50%。
如果有人可以帮助我了解,我将不胜感激
- 为什么我有这么大的差异。
- 我还需要拥有最新时间戳的测试数据集(与第二个实验中的数据集相同)。无论如何从数据集中的其余部分中选择数据进行训练以改进 培训。
PS:我已经从时间戳的前 80% 中测试了随机选择,但并没有提高性能。
【问题讨论】:
-
你的数据有多随机?
-
我的数据就像一个公司的股票信息数据。
-
我是这么认为的,我在外汇方面也遇到了同样的问题。 CV 并没有为我解决这个问题
-
这里也一样,CV 不起作用。我仍在努力。你有什么想法吗?
标签: machine-learning random-forest