MDP回顾

1.以加速度作为action,以位置和速度作为state,实现的是值迭代的方式。利用min公式计算G值，DP和RTDP的不同，DP在每个节点的迭代次序会影响收敛速度，DP会将整个

地图的节点都会遍历一遍。因此效率会不高，同时其在开始时不会对G值进行初始化。RTDP会在建图时进行初始化，同时在选择下一个点时利用的是贪婪策略。同时会对轨迹进行

备份。效率会高一些。

2.从终点开始往前开始做优化。

马尔科夫决策树MDP基本流程梳理完。可以暂时放下。