D Q N DQN DQN 初始Agent K,B:是模型参数 X:环境状态 Y:决定Action,Action和正确结果的正负状态决定奖励和惩罚机制 训练完后的优质Agent 全连接网络回归 全连接网络分类 Input Layer: State Output Layer :Action,Action和正确结果的正负状态决定奖励和惩罚机制 中间所有参数:模型 CNN分类 或者: 神经网络画图 相关文章: 2022-01-23 2022-01-09 2021-08-31 2021-06-08 2021-11-13 2021-12-11 2021-06-03 2021-05-16