目录
论文
强化学习+指针网络+组合优化
一、概论
主要是用强化学习中的策略梯度方法,来计算为TSP建立的指针网络模型的参数。同时发现策略梯度+主动学习的效果更好
二、模型
参数
s:是输入的序列坐标集
:网络的参数
:一种策略(参数)的输出结果
公式
-
定义结果好坏
-
结果出现的可能性【链式展开】
-
定义在的空间中,参数为的L的期望值
-
是空间中的一个分布(子集),所以定义总的为——期望
-
求3式的梯度——利用强化学习中的方法
其中式不依赖于策略的基准值,可以用来表示基准来减小梯度 -
梯度近似表示——用蒙特卡洛采样
是从中抽样的结果(输入图)
在策略下,每个输入图,有多个输出结果,仅采样一个。 -
如何确定
最简单的方式:计算在一段时间内,网络获得的奖励的指数移动平均值,来反映策略随着训练不断改进。是批处理的共享,所以可能存在某个s的最优结果,任然大于。 -
定义critic网络
希望训练出一个网络,参数为
输入某一个起始图,输出该策略的基准值
网络
Critic网络
- LSTM编码器——与Ptr类似(一系列潜在记忆状态、一个隐藏状态h)
- LSTM块——对h执行p个步骤的LSTM操作
- 2层ReLU网络,将输出转化为一个值(表示b)
actor-critic算法
搜索策略
在本TSP问题中,评估一个解的好坏成本不高,可以考虑每个输入图的多个候选解,并选择最佳解来模拟搜索过程。主要是抽样搜索和主动搜索。
- 抽样搜索
输出softmax表示每次访问点的概率,贪婪算法就是每次都选择概率最大的。这里引用了温度超参数模型,softmax(u/T),可以有效改进。 - 主动搜索
若用固定的采样模型,就忽略了奖励值这一信息。可以在单个测试输入中细化参数,进行进一步优化策略参数。
三、实验及结果
几种不同的实验组合
实验结论
结果表明:
- 使用RL进行训练显著改善了监督学习(Vinyals等,2015b)。
- 我们所有的方法都轻松地超越了Christofides的启发式方法,包括不依赖于搜索的RL预训练-贪婪方法。
- 在推断时进行搜索对于接近最优性非常重要,但这是以更长的运行时间为代价的。
- 幸运的是,RL预训练采样和RL预训练活动搜索的搜索可以通过在最终目标方面进行小的性能权衡而提前停止
四、迁移到背包问题
背包问题定义
定义
- 我们应用指针网络,将每个背包实例编码为一个二维向量序列(wi, vi)
- 在解码时,指针网络指向背包中要包含的物品
- 当收集到的物品的总重量超过重量容量时停止
实验结论
- 第一个基线是贪婪权重-价值比启发式
- 第二个基线是随机搜索
- 在这里我们抽样尽可能多的可行的解决方案看到主动搜索。
- -RL pretraining- greedy生成的解决方案平均只比最优值低1%
- =而Active Search将所有实例都解决为最优