人工智能学习笔记9

 

人工智能学习笔记9

 

人工智能学习笔记9

人工智能学习笔记9

 

人工智能学习笔记9

 

人工智能学习笔记9

人工智能学习笔记9

 

人工智能学习笔记9

人工智能学习笔记9

 

人工智能学习笔记9

 

人工智能学习笔记9

人工智能学习笔记9

 

Agent:智能体

 

策略网络(Policy Network):

直接预测在某个环境状态下应该采取的Action    适合Action种类非常多或者有连续取值的Action的环境。(学习的不是某个action对应的期望价值Q,而是直接学习在当前环境应该采取的策略,可以直接产生最终的策略)

人工智能学习笔记9

价值/估值网络(Value Network):

预测某个环境状态下所有Action的期望价值(Q值),之后可以通过选择Q值最高的Action执行策略。     适合仅有少量离散取值的Action的环境。

人工智能学习笔记9

人工智能学习笔记9

 

相关文章: