学习分层强化任务的结构答案

【问题标题】：Learning the Structure of a Hierarchical Reinforcement Task学习分层强化任务的结构
【发布时间】：2010-09-27 03:10:12
【问题描述】：

我一直在研究分层强化学习问题，虽然许多论文提出了学习策略的有趣方法，但他们似乎都假设他们事先知道描述该领域中的动作的图结构。例如，Dietterich 的The MAXQ Method for Hierarchial Reinforcement Learning 描述了一个简单出租车领域的复杂动作和子任务图，但没有描述这个图是如何被发现的。您将如何了解此图的层次结构，而不仅仅是策略？

【问题讨论】：

您也可以尝试在此处发布您的问题：stats.stackexchange.com
我们能否对您想学习分层强化结构的场景有更多的了解？或者这是一个普遍的问题？
@Chris 您所说的主题可能属于 AI 规划的层次学习。相关论文是aaai.org/Papers/JAIR/Vol26/JAIR-2606.pdf（但这并不是专门针对层次学习的）。本文假设预先提供了一组原始动作（就像你提到的左移等）。这个主题很高级——有关 AI 规划的基础知识，请参阅 Russell 和 Norvig 的书。
我参加这个聚会有点晚了，但是如果您搜索自动归纳（或发现）MAXQ 层次结构，您会发现一些好东西。很多人都在这方面工作。
在我的谷歌搜索变得非常有创意之后，我终于找到了igi.tugraz.at/ril-toolbox/general/overview.html。它似乎是硕士论文的结果，是用 C++ 编写的，并且在 4 年内没有维护，但似乎包含一个使用 Taxi 域的分层强化学习示例。我无法确定它使用的是什么具体算法。

标签： artificial-intelligence machine-learning reinforcement-learning

【解决方案1】：

在 Dietterich 的 MAXQ 中，图形是手动构建的。这被认为是系统设计人员的一项任务，就像提出表示空间和奖励函数一样。

根据您要实现的目标，您可能希望自动分解状态空间、学习相关功能或将经验从简单任务转移到更复杂的任务。

我建议您开始阅读与您链接到的 MAXQ 相关的论文。在不知道你究竟想要达到什么目标的情况下，我不能非常规范（而且我并不是真正了解当前所有 RL 研究），但你可能会在 Luo、Bell 和 McCollum 的工作中找到相关的想法，或者Madden & Howley 的论文。

【讨论】：

【解决方案2】：

本文描述了一种很好的起点：

N。 Mehta、S. Ray、P. Tadepalli 和 T. Dietterich。自动发现和传输 MAXQ 层次结构。在国际机器学习会议上，2008 年。

http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

【讨论】：

【解决方案3】：

假设有这个代理在外面做事。你不知道它的内部目标（任务图）。你如何推断它的目标？

在某种程度上，这是不可能的。就像我不可能知道当你放下那个盒子时你的目标是什么：也许你累了，也许你看到了一只杀人蜂，也许你不得不撒尿......

您正在尝试为代理的内部目标结构建模。为了做到这一点，您需要某种指导，了解可能的目标集是什么，以及这些目标是如何由行动表示的。在研究文献中，这个问题已经在“计划识别”这一术语下进行了研究，并且还使用了 POMDP（部分可观察马尔可夫决策过程），但是这两种技术都假设您确实了解其他智能体的目标。

如果您对它的目标一无所知，那么您所能做的就是推断上述模型之一（这就是我们人类所做的。我假设其他人的目标与我相同。我从不认为，“哦，他的笔记本电脑掉了，他一定准备好下蛋了”cse，他是一个人。）或将其建模为一个黑匣子：一个简单的状态到动作函数，然后根据需要添加内部状态（嗯，有人必须有写了一篇关于这个的论文，但我不知道是谁）。

【讨论】：

在我所指的问题中，代理还没有任何内部目标。我在问代理如何学习它的目标和子目标的层次结构。在我提到的论文中，这种层次结构是预定义的。如果没有预定义，并且代理只能执行原始操作，它如何学习层次结构以加快其规划和学习速度？
啊，所以，你的意思是如何编写一个学习更高层次概念的代理，比如“接送最近的乘客”......这很难。这个问题让人想起 SOAR 小组关于“分块”的工作以及基于案例的推理和基于解释的学习领域（但它们仍然需要领域理论）。