【问题标题】:Stationarity conecpt in Sequential decision in reinforcement learning强化学习中顺序决策中的平稳性概念
【发布时间】:2019-01-08 15:40:31
【问题描述】:

以下是 Stuart Russel 和 Peter Norvig 所著《人工智能》一书中的顺序决策问题中的文本 sn-p。第 17 章第 17.1 节

偏好的平稳性意味着:

如果两个状态序列 [s0, s1, s2, . . .] 和 [s0',s1', s2', . . .] 以相同的状态开始(即 s0 = s01),然后是两个序列 应该按照与序列 [s1, s2, . . .] 和 [s1', s2', . . .].

在英语中,这意味着如果你更喜欢一个未来而不是另一个 从明天开始,如果是的话,你还是应该更喜欢那个未来 改为从今天开始。

我很难理解最后一句话。

在英语中,这意味着如果你更喜欢一个未来而不是从明天开始的另一个,那么如果它从今天开始,你仍然应该更喜欢那个未来。

请多多解释。

【问题讨论】:

  • 我不确定,但我的理解是:如果你有 2 条路径可以稍后走,并且你知道一条更适合你,现在就走

标签: machine-learning artificial-intelligence reinforcement-learning


【解决方案1】:

维基百科关于平稳性的另一个定义可能有助于理解这个想法:

在数学和统计学中,平稳过程是一个随机过程,其无条件联合概率分布在时间上移动时不会改变。

关键概念是随着时间的推移不会改变。因此,应用于偏好的情况下,偏好应该是相同的,与做出的时间无关。也就是说,如果您在第 2 天(明天)或第 1 天(今天),第 3 天的偏好应该相同。

【讨论】:

    猜你喜欢
    • 2012-08-30
    • 1970-01-01
    • 1970-01-01
    • 2014-09-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-04-17
    相关资源
    最近更新 更多