【发布时间】:2020-01-24 07:17:18
【问题描述】:
我有一个问题涉及随着时间的推移优化操作:
- 假设我有一组输入变量
X,其中每个X_i_t都有一个 每个时间点的值t = 0 ... T。 - 对于每个时间点,我想选择一组动作
a_t行动A, - 使得效用函数
U(a0, ..., a_T)最大化。
注意,效用函数没有封闭形式的解决方案,它的值取决于整个动作序列a_0 ... a_T。
我将如何实现这样的功能?我对可以用来查找相关文献的关键字非常满意。我不需要完整的解决方案。 - 虽然如果有人可以将我指向一个执行此操作的 python sklearn 函数,我绝对不会拒绝......
我的第一个直觉是“逻辑回归”,但无法在时间 a_t 时为操作分配“正确标签”t,因为实用程序取决于时间序列中早晚采取的行动。
【问题讨论】:
标签: machine-learning artificial-intelligence classification