你怎么能给电脑一个“自然需要”呢？答案

【问题标题】：How could you give a computer a "natural need"?你怎么能给电脑一个“自然需要”呢？
【发布时间】：2010-11-20 05:35:47
【问题描述】：

所以这个想法是计算机代理将被编程为两层，有意识的和无意识的。

无意识部分本质上是一组输入和输出设备，我通常将其视为传感器（键盘、温度等，超出您的想象）和输出方法（屏幕和扬声器，尤其是在家用电脑，但又到了你想象的极限）。传感器可以随时添加或移除，该层为有意识层提供了两个主要通道，一个输入和一个输出。定义在这两层之间传输什么样的信息有点困难，但基本思想是有意识的部分不断从无意识部分的输出接收信号（各种抽象级别），而有意识的部分可以发送任何信息它想通过输入通道下到无意识层。

意识层最初几乎一无所知，它只是被无意识层的输入完全摧毁，它知道如何将信号发回，尽管它不知道任何特定信号将如何影响无意识部分。有意识的部分有大量的存储空间和处理能力，但都是易失性内存。

现在回答问题。我希望系统的有意识部分能够“成长”，因为它不知道自己能做什么，它只知道它可以发送信号，因此它首先通过管道发送信号并查看它如何影响它接收回的传感器数据。死胡同是计算机最初并没有试图满足一个目标。它只是在发送信号。把它想象成婴儿出生，他们需要食物、睡眠或远离阳光等等。婴儿的感觉输入被馈送到大脑，然后决定尝试利用其输出为了得到它需要的东西。

电脑能有什么样的自然需求？

What have I tried?
专门考虑婴儿是如何变得饥饿的，我当然没有读过任何关于猫扫描对哭泣的饥饿儿童或其他任何东西的研究，但我认为也许一个特定的信号来自无意识，并且不断增长，只有当信号满足时才会满足送回去给宝宝吃。有意识的大脑的工作是最小化每种信号的进入速度。换句话说，计算机的“本能”就是限制每个信号进入的速率。还有什么其他的“本能”呢？这个类比的问题当然是，计算机不需要吃饭。或者至少我无法将吃转化为计算机需要的东西。

Outside of the scope of this question
这样做的最终目标是教一台除了如何与世界交互之外一无所知的计算机玩井字游戏。所以我的另一个想法是提供一个按钮，当它做坏事时，你可以按下它来手动刺激进入意识的特定信号的速率，或者当它做得好的时候手动缓和特定信号的速率。

【问题讨论】：

好主意，我喜欢。不过随机的想法：当谈到人工智能时，“自然是不是那样做的”是无关紧要的，如果你认为计算机应该“想要”/“需要”（我认为在这种情况下可以肯定地说它们是几乎相同的东西，直到有意识的人学会了区分它们）某物，然后让计算机“想要/需要”它。最终你只关心它是否有效。
我对自然的担忧不如为计算机找到一个永无止境的目标，并迫使计算机继续做事，以便更容易满足即将到来的不可避免的“需要” .我基本上是在无意识层中寻找会经常受到影响以强制这种行为的东西。我不想告诉系统该做什么，我想让它弄清楚如何以最有效的方式得到它需要的东西。因为从某种意义上说，我有一份工作，而且上班是为了让食物变得更容易。
您能否将您的问题与强化学习问题进行比较并突出差异？
@ziggystar，问题不在于学习过程或用于推断知识的算法。我不是试图解决一个特定的问题，而是建立一个系统，可以教它以不止一种方式解决许多琐碎的问题。 我的问题是让计算机不需要人为地不断寻找更好的方法来解决这些问题，而不是解决它并退休。该程序的其余部分使用了许多强化学习和其他 AI 技术，但这不是这个问题的主题。
@NL 我不是在谈论解决 RL 问题的方法，而是在谈论问题本身。然后看看 POMDP 模型。 RL 问题是否与您的问题设置不同？如果没有，那么您将能够使用“效用”、“折扣系数”等术语来表述您的问题。

标签： artificial-intelligence

【解决方案1】：

机器智能计划通常从 Mazlow's Hierarchy of Needs 的奖励级别开始，因为它们无法感知生理、安全和保障或社会需求。不过……

在生理层面，计算机以电力为食。插入一个 UPS，它会告诉计算机何时使用电池运行，并且您有一个潜在有用的输入来感知生理需求。

赋予它“感知”它“失去时间”或在其时间记录中存在间隙（由于电源故障）的能力，您也许可以引入安全和安保需求。

通过使其需要互动来引入社交需求。当键盘输入之间经过大量时间时，它可能会“感到”孤独。

检测丢失的时间、自上次键盘交互以来经过的时间以及电池供电可能是无意识层可用的输入之一，这些输入可以周期性地引起有意识层的注意。

Two Faces of Tomorrow 中的计算机科学家解决了类似的问题，他们训练卫星上的沙盒计算机使其具备感知能力。他们通过例如使其意识到没有电将停止运行，然后提供适当的刺激并观察反应来满足这些需求。

The Adolescence of P-1 是另一个有趣的工作。

【讨论】：

抱歉延迟回复此答案。直到看了几章，我才意识到自己正在读一本小说。

【解决方案2】：

一个机器人被编程为相信它喜欢鲱鱼三明治。这实际上是整个实验中最困难的部分。一旦机器人被编程为相信它喜欢鲱鱼三明治，就会在它面前放一个鲱鱼三明治。于是机器人心想：“啊！鲱鱼三明治！我喜欢鲱鱼三明治。”

然后它会弯下腰，用鲱鱼三明治勺舀起鲱鱼三明治，然后再次站直。对机器人来说不幸的是，它的设计方式是直立的动作导致鲱鱼三明治直接从鲱鱼三明治勺上滑下来，掉到机器人面前的地板上。于是机器人心想：“啊！一个鲱鱼三明治……等等，一遍又一遍地重复着同样的动作。唯一能阻止鲱鱼三明治厌倦这该死的生意并爬行的唯一原因是为了寻找其他打发时间的方法，鲱鱼三明治只是几片面包之间的一条死鱼，对正在发生的事情的警觉性略低于机器人。

因此，研究所的科学家们发现了生活中所有变化、发展和创新的驱动力，那就是：鲱鱼三明治。他们为此发表了一篇论文，被广泛批评为极其愚蠢。他们检查了他们的数字，意识到他们实际上发现的是“无聊”，或者更确切地说，无聊的实际功能。在兴奋的狂热中，他们继续发现其他情绪，如“烦躁”、“抑郁”、“不情愿”、“恶心”等。下一个重大突破是当他们停止使用鲱鱼三明治时，他们突然可以研究一大堆新的情绪，比如“解脱”、“快乐”、“活泼”、“食欲”、“满足”，以及最重要的是，对“幸福”的渴望。

这是最大的突破。

~来自道格拉斯·亚当斯的银河系漫游指南

奖金

看看强化学习。

【讨论】：

@NickLarsen，平心而论，你的问题听起来像是你第一次花时间思考机器学习。你什么都不量化，只使用模糊的伪心理学术语，试图将计算机等同于婴儿。简而言之，您实际上什么也没问，并得到了适当的答复。但是，是的，强化学习正是您要寻找的。span>
@Chris S，我问了一些具体的问题，在我的原始帖子中以粗体突出显示。事实上，我花了很多时间思考这个问题，以及一般的机器学习。这个问题很困难，因此我自己无法找到可行的答案，因此我向社区询问。我问了一些具体的问题，如果我问午餐吃什么，这个回答相当于告诉我调查农业。另外，如果您查看时间戳，您会注意到在我的回复之后添加了Bonus。
@Chris S，为了进一步澄清，我不关心意识部分使用的算法，那完全是另一回事。我正在寻找一种方法来给计算机一个不完全人为的理由来继续探索它可以做什么。这将控制权从用户转移到计算机，这就是我所追求的区别。