1.以加速度作为action,以位置和速度作为state,实现的是值迭代的方式。利用min公式计算G值,DP和RTDP的不同,DP在每个节点的迭代次序会影响收敛速度,DP会将整个

地图的节点都会遍历一遍。因此效率会不高,同时其在开始时不会对G值进行初始化。RTDP会在建图时进行初始化,同时在选择下一个点时利用的是贪婪策略。同时会对轨迹进行

备份。效率会高一些。

2.从终点开始往前开始做优化。

马尔科夫决策树MDP基本流程梳理完。可以暂时放下。

相关文章:

  • 2021-09-04
  • 2021-04-23
  • 2021-07-08
  • 2021-08-11
  • 2021-07-24
  • 2022-01-17
  • 2021-07-19
猜你喜欢
  • 2021-04-28
  • 2021-09-25
  • 2021-07-28
相关资源
相似解决方案