1、知识点
""" 1、强化学习:学习系统没有像很多其他形式的机器学习方法一样被告知应该做什么行为, 必须在尝试之后才能发现哪些行为会导致奖励的最大化,当前的行为可能不仅仅会影响即时奖励, 还会影响下一步奖励以及后续的所有奖励 2、机制:奖励和惩罚机制 3、名词:智能体,即操控的目标 状态:所处的环境 行为:执行动作 奖励:达到所需的目标,给与奖励 策略:Q-learning,bellman 4、过程:观察-->行动-->观察-->行动-->观察(不断循环) 5、马尔可夫决策要求: 1、能够检测到理想的状态 2、可以多次尝试 3、系统的下个状态只与当前状态信息有关,而与更早之前的状态无关,在决策过程中还和当前采取的动作有关 6、马尔科夫决策过程由5个元素构成: S:表示状态集(states) A:表示一组动作(actions) P:表示状态转移概率