【问题标题】:Learning the Structure of a Hierarchical Reinforcement Task学习分层强化任务的结构
【发布时间】:2010-09-27 03:10:12
【问题描述】:

我一直在研究分层强化学习问题,虽然许多论文提出了学习策略的有趣方法,但他们似乎都假设他们事先知道描述该领域中的动作的图结构。例如,Dietterich 的The MAXQ Method for Hierarchial Reinforcement Learning 描述了一个简单出租车领域的复杂动作和子任务图,但没有描述这个图是如何被发现的。您将如何了解此图的层次结构,而不仅仅是策略?

【问题讨论】:

  • 您也可以尝试在此处发布您的问题:stats.stackexchange.com
  • 我们能否对您想学习分层强化结构的场景有更多的了解?或者这是一个普遍的问题?
  • @Chris 您所说的主题可能属于 AI 规划的层次学习。相关论文是aaai.org/Papers/JAIR/Vol26/JAIR-2606.pdf(但这并不是专门针对层次学习的)。本文假设预先提供了一组原始动作(就像你提到的左移等)。这个主题很高级——有关 AI 规划的基础知识,请参阅 Russell 和 Norvig 的书。
  • 我参加这个聚会有点晚了,但是如果您搜索自动归纳(或发现)MAXQ 层次结构,您会发现一些好东西。很多人都在这方面工作。
  • 在我的谷歌搜索变得非常有创意之后,我终于找到了igi.tugraz.at/ril-toolbox/general/overview.html。它似乎是硕士论文的结果,是用 C++ 编写的,并且在 4 年内没有维护,但似乎包含一个使用 Taxi 域的分层强化学习示例。我无法确定它使用的是什么具体算法。

标签: artificial-intelligence machine-learning reinforcement-learning


【解决方案1】:

在 Dietterich 的 MAXQ 中,图形是手动构建的。这被认为是系统设计人员的一项任务,就像提出表示空间和奖励函数一样。

根据您要实现的目标,您可能希望自动分解状态空间、学习相关功能或将经验从简单任务转移到更复杂的任务。

我建议您开始阅读与您链接到的 MAXQ 相关的论文。在不知道你究竟想要达到什么目标的情况下,我不能非常规范(而且我并不是真正了解当前所有 RL 研究),但你可能会在 Luo、Bell 和 McCollum 的工作中找到相关的想法,或者Madden & Howley 的论文。

【讨论】:

    【解决方案2】:

    本文描述了一种很好的起点:

    N。 Mehta、S. Ray、P. Tadepalli 和 T. Dietterich。自动发现和传输 MAXQ 层次结构。在国际机器学习会议上,2008 年。

    http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

    【讨论】:

      【解决方案3】:

      假设有这个代理在外面做事。你不知道它的内部目标(任务图)。你如何推断​​它的目标?

      在某种程度上,这是不可能的。就像我不可能知道当你放下那个盒子时你的目标是什么:也许你累了,也许你看到了一只杀人蜂,也许你不得不撒尿......

      您正在尝试为代理的内部目标结构建模。为了做到这一点,您需要某种指导,了解可能的目标集是什么,以及这些目标是如何由行动表示的。在研究文献中,这个问题已经在“计划识别”这一术语下进行了研究,并且还使用了 POMDP(部分可观察马尔可夫决策过程),但是这两种技术都假设您确实了解其他智能体的目标。

      如果您对它的目标一无所知,那么您所能做的就是推断上述模型之一(这就是我们人类所做的。我假设其他人的目标与我相同。我从不认为,“哦,他的笔记本电脑掉了,他一定准备好下蛋了”cse,他是一个人。)或将其建模为一个黑匣子:一个简单的状态到动作函数,然后根据需要添加内部状态(嗯,有人必须有写了一篇关于这个的论文,但我不知道是谁)。

      【讨论】:

      • 在我所指的问题中,代理还没有任何内部目标。我在问代理如何学习它的目标和子目标的层次结构。在我提到的论文中,这种层次结构是预定义的。如果没有预定义,并且代理只能执行原始操作,它如何学习层次结构以加快其规划和学习速度?
      • 啊,所以,你的意思是如何编写一个学习更高层次概念的代理,比如“接送最近的乘客”......这很难。这个问题让人想起 SOAR 小组关于“分块”的工作以及基于案例的推理和基于解释的学习领域(但它们仍然需要领域理论)。
      猜你喜欢
      • 2014-12-23
      • 2021-05-06
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-12-06
      • 1970-01-01
      • 2018-11-05
      • 2019-04-16
      相关资源
      最近更新 更多