首先,在无噪声的BridgeGrid上用默认学习率训练50次完全随机的Q-learner学习,观察是否找到最佳策略。

python gridworld.py -a q -k 50 -n 0 -g BridgeGrid -e 1

CS 188 Project3(RL) Q8: Bridge Crossing Revisited

现在采用epsilon设置为0做同样的实验。是否存在一个epsilon和一个学习率,在50次迭代之后,很可能(大于99%)会学习到最佳策略?analysis.py中的question8()应返回2元组(epsilon,learning rate)或字符串“not possible”。epsilon由-e控制,学习率由-l控制。注意:您的响应不应依赖于用于选择动作的平分决胜机制。这意味着,即使我们将整个桥梁网格世界旋转90度,您的答案也应该是正确的。

要评分,请运行autograder:

python autograder.py -q q8

欢迎关注微信公众号:“从零起步学习人工智能”!

相关文章:

  • 2021-12-07
  • 2021-12-07
  • 2021-06-26
  • 2021-11-30
  • 2021-08-20
  • 2021-12-30
  • 2021-06-25
猜你喜欢
  • 2021-12-16
  • 2021-10-13
  • 2021-06-27
  • 2022-01-28
  • 2021-06-20
  • 2022-02-06
相关资源
相似解决方案