CS 188 Project3(RL) Q8: Bridge Crossing Revisited

首先，在无噪声的BridgeGrid上用默认学习率训练50次完全随机的Q-learner学习，观察是否找到最佳策略。

python gridworld.py -a q -k 50 -n 0 -g BridgeGrid -e 1

现在采用epsilon设置为0做同样的实验。是否存在一个epsilon和一个学习率，在50次迭代之后，很可能（大于99%）会学习到最佳策略？analysis.py中的question8（）应返回2元组（epsilon，learning rate）或字符串“not possible”。epsilon由-e控制，学习率由-l控制。注意：您的响应不应依赖于用于选择动作的平分决胜机制。这意味着，即使我们将整个桥梁网格世界旋转90度，您的答案也应该是正确的。

要评分，请运行autograder：

python autograder.py -q q8

欢迎关注微信公众号：“从零起步学习人工智能”！