强化学习中顺序决策中的平稳性概念答案

【问题标题】：Stationarity conecpt in Sequential decision in reinforcement learning强化学习中顺序决策中的平稳性概念
【发布时间】：2019-01-08 15:40:31
【问题描述】：

以下是 Stuart Russel 和 Peter Norvig 所著《人工智能》一书中的顺序决策问题中的文本 sn-p。第 17 章第 17.1 节

偏好的平稳性意味着：

如果两个状态序列 [s0, s1, s2, . . .] 和 [s0',s1', s2', . . .] 以相同的状态开始（即 s0 = s01），然后是两个序列应该按照与序列 [s1, s2, . . .] 和 [s1', s2', . . .].

在英语中，这意味着如果你更喜欢一个未来而不是另一个从明天开始，如果是的话，你还是应该更喜欢那个未来改为从今天开始。

我很难理解最后一句话。

在英语中，这意味着如果你更喜欢一个未来而不是从明天开始的另一个，那么如果它从今天开始，你仍然应该更喜欢那个未来。

请多多解释。

【问题讨论】：

我不确定，但我的理解是：如果你有 2 条路径可以稍后走，并且你知道一条更适合你，现在就走

标签： machine-learning artificial-intelligence reinforcement-learning

【解决方案1】：

维基百科关于平稳性的另一个定义可能有助于理解这个想法：

在数学和统计学中，平稳过程是一个随机过程，其无条件联合概率分布在时间上移动时不会改变。

关键概念是随着时间的推移不会改变。因此，应用于偏好的情况下，偏好应该是相同的，与做出的时间无关。也就是说，如果您在第 2 天（明天）或第 1 天（今天），第 3 天的偏好应该相同。

【讨论】：