【问题标题】：Training an AI algorithm to learn new features [closed]训练 AI 算法以学习新功能 [关闭]
【发布时间】：2021-02-22 00:12:14
【问题描述】：

在研究 AI 时，我只看到 1 个训练期，然后你的模型就会学习并且它是完美的。但是，如果数据没有像金融价格这样的真实模式，或者例如玩游戏怎么办。然后你的算法无法学习，你一无所有。

我对 openAI 以及他们如何教 AI 算法玩 Dota 2 进行了一些研究。其中一位程序员说，在周末，他教算法如何通过给予奖励来阻止小兵。他们是不是拿了现有的模型，在角色站在小兵面前时加了一些奖励，然后让它撕裂，它会突然学习新技能？

没有关于这是如何完成的信息！它更像是一个渐进的学习系统，而不是一次训练就完成了。请阐明这个过程以及我如何训练金融算法“特征”。

【问题讨论】：

mikulskibartosz.name/… 行为调节是我认为您正在寻找的。span>

标签： tensorflow artificial-intelligence tensorflow2.0 reinforcement-learning

【解决方案1】：

在线与离线学习

退后一步，从总体上看一下机器学习，以了解在线和离线学习之间的区别。人工智能只是几乎完全基于神经网络的机器学习子集的一个花哨的名称。您所说的“一个培训期”称为离线学习，您正在寻找的是在线学习。

在计算机科学中，在线机器学习是一种机器学习方法，其中数据按顺序可用，并用于在每个步骤中更新未来数据的最佳预测器，而不是生成最佳预测器的批量学习技术通过一次学习整个训练数据集来预测预测器。 [https://en.wikipedia.org/wiki/Online_machine_learning]

关键是用新数据逐步教授您的模型，而不会忘记以前的知识。一个著名的玩具问题是具有变化参数的非平稳multi-armed bandit，这是向学生介绍强化学习概念的常用方法。

强化学习

您可以在代理环境模型中制定此问题，其中您的模型扮演代理的角色，根据当前环境状态（股票价格）从一组操作（买入/卖出）中进行选择，同时最大化奖励功能（投资组合的价值）。最先进的 RL 算法也使用深度学习，因此它们被归类为人工智能，例如 openAI 的 Dota bot。

查看深度强化学习以了解更多信息。

【讨论】：

【解决方案2】：

我相信这是通过结合强化学习来实现的。这是随着时间的推移会变得更好的。和 LTSM 来了解时间序列数据的偏差，至少在您预测价格时是这样。如果你想预测 sotck，这应该是一个很好的例子：https://www.kaggle.com/faressayah/stock-market-analysis-prediction-using-lstm 但请注意，这是乌托邦......

【讨论】：