静态环境的人工智能答案

【问题标题】：AI for static environment静态环境的人工智能
【发布时间】：2014-04-30 07:56:23
【问题描述】：

我有一个网格环境，每个单元格中都包含一个静态代理。当我的代理进入一个单元格时，这个单元格中的静态代理可能会从我身上拿走分数，给我分数，或者什么也不做。我的代理不能观察相邻的单元格，直到它移动到一个单元格中，它只能向上、向下、向左或向右移动。

此代理在探索时无法学习。它从一个特定的角落进入网格，并且只能从那个角落离开。如果代理设法成功探索环境并返回到角落并保持健康，那么它可以从收集到的经验中学习，包括它访问过的（行、列）位置以及属性位于这些位置的静态代理。如果探员在探索过程中的生命值降至零，则游戏结束。但我可以根据需要多次重启探索。

每个静态代理都具有三种形状中的一种、三种颜色中的一种和两种尺寸中的一种。它还有一个相关的“奖励”，表明它增加/减少了我多少分。

在这种环境中的每一步都会花费我一分。我想设计一个能正确识别与此网格中每种类型的静态代理相关的奖励的代理。

请有人推荐一种学习和/或进化的方法来解决这个问题？由于代理可能无法观察相邻方格的限制，我目前被困住了。我不确定如何从单独遇到的（行、列）和静态代理属性中从这个测试环境中学到任何东西。

【问题讨论】：

欢迎来到 StackOverflow！这主要是针对特定代码问题的论坛。如果您编写了一些需要帮助的代码，请发布。如果您正在寻找更通用的算法方法，这可能不是最好的网站——也许Computer Science Stack Exchange 会产生更好的结果？
感谢您的建议。我现在已经在那个网站上发布了我的问题。

【解决方案1】：

显然，与此问题相匹配的最佳学习方法之一是Reinforcement Learning，更具体地说是Q-Learning。

你会找到一个很好的起点here。
提示：Q-learning 比较有名，这里不再赘述，这里给大家重点介绍一下。

在每一步都使用例如数组（幸运的是你'到目前为止还没有学到任何东西！）。继续这样做，直到代理停止，正如你所说，这可能有两个原因：

【讨论】：