【发布时间】:2012-01-19 09:57:16
【问题描述】:
我想实现一个强化学习连接四个代理。 我不确定如何这样做以及它应该看起来如何。我熟悉强化学习的理论方面,但不知道应该如何实施。
应该怎么做? 我应该使用 TD(lambda) 还是 Q-learning,MinMax 树是如何参与其中的? 我的 Q 和 V 函数如何工作(行动质量和状态价值)。我如何给这些东西打分?我改进的基本政策是什么,我的模式是什么? 另一件事是我应该如何保存状态或 statesXactions(取决于学习算法)。我应该使用神经网络吗?如果是,如何?
我正在使用 JAVA。
谢谢。
【问题讨论】:
-
我不确定是否有人能回答这个问题而不只是告诉你按照他们会做的方式去做。我会从我想要实现什么以及我想要学习什么开始,希望这些决定会变得更加清晰。
-
听听别人会怎么做会有很大帮助
-
既然您这样做是出于兴趣,我将首先使用最简单且有趣的方法。我喜欢神经网络,所以我会尝试一下,但要真正学习,你应该研究每个主题(它们本身就是博士学位),看看每种方法有多简单或有效。
标签: java reinforcement-learning