A Dissection of Overfitting and Generalization in Continuous Reinforcement Learning

A Dissection of Overfitting and Generalization in Continuous Reinforcement Learning
发表时间：2018
文章要点：文章想说RL很容易overfitting，然后就提出某个方式来判断是不是overfitting了。最后得出结论，通过多样化的训练可以减少overfitting（as soon as there is enough training data diversity）。作者其实就定义了一个指标
A Dissection of Overfitting and Generalization in Continuous Reinforcement Learning
其实就是train时候的reward减去test时候的reward。然后做的实验就是改变随机种子的数量，结果就是随机种子数量越多，overfitting就越少。还有一些实验比如给reward加点随机性之类的，就不多说了。
总结：这篇文章估计是个大作业吧，不然也太夸张了。但是看他的引用居然有80，这就。。。
疑问：说实在的，这个指标真的能判断overfitting吗？万一都没有train好，或者说环境太难本来就训不上去，导致train和test表现都很差，然后算出来为0，这也算没有泛化误差吗？