论文

强化学习+指针网络+组合优化

一、概论

主要是用强化学习中的策略梯度方法,来计算为TSP建立的指针网络模型的参数。同时发现策略梯度+主动学习的效果更好

二、模型

参数

s:是输入的序列坐标集
θ\theta:网络的参数
π\pi:一种策略(参数)的输出结果

公式

  1. 定义结果好坏
    【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

  2. π\pi结果出现的可能性【链式展开】【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

  3. 定义在ss的空间中,参数为θ\theta的L的期望值
    【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

  4. ssSS空间中的一个分布(子集),所以定义总的LL为——期望
    【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

  5. 求3式的梯度——利用强化学习中的方法
    其中b(s)b(s)式不依赖于策略π\pi的基准值,可以用来表示基准来减小梯度
    【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

  6. 梯度近似表示——用蒙特卡洛采样
    BB是从SS中抽样的结果(输入图)
    在策略π\pi下,每个输入图,有多个输出结果,仅采样一个。
    【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

  7. 如何确定b(s)b(s)
    最简单的方式:计算在一段时间内,网络获得的奖励的指数移动平均值,来反映策略随着训练不断改进。bb是批处理的共享,所以可能存在某个s的最优π\pi结果,任然大于bb

  8. 定义critic网络
    希望训练出一个网络,参数为θv\theta_v
    输入某一个起始图ss,输出该策略的基准值bb【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

网络

Critic网络

  • LSTM编码器——与Ptr类似(一系列潜在记忆状态、一个隐藏状态h)
  • LSTM块——对h执行p个步骤的LSTM操作
  • 2层ReLU网络,将输出转化为一个值(表示b)

actor-critic算法

【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

搜索策略

在本TSP问题中,评估一个解的好坏成本不高,可以考虑每个输入图的多个候选解,并选择最佳解来模拟搜索过程。主要是抽样搜索和主动搜索。

  • 抽样搜索
    输出softmax表示每次访问点的概率,贪婪算法就是每次都选择概率最大的。这里引用了温度超参数模型,softmax(u/T),可以有效改进。
  • 主动搜索
    若用固定的采样模型,就忽略了奖励值这一信息。可以在单个测试输入中细化参数θ\theta,进行进一步优化策略参数。
    【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

三、实验及结果

几种不同的实验组合

【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

实验结论

【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING
结果表明:

  • 使用RL进行训练显著改善了监督学习(Vinyals等,2015b)。
  • 我们所有的方法都轻松地超越了Christofides的启发式方法,包括不依赖于搜索的RL预训练-贪婪方法。
    【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING
  • 在推断时进行搜索对于接近最优性非常重要,但这是以更长的运行时间为代价的。
  • 幸运的是,RL预训练采样和RL预训练活动搜索的搜索可以通过在最终目标方面进行小的性能权衡而提前停止
    【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

四、迁移到背包问题

背包问题定义【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

定义

  • 我们应用指针网络,将每个背包实例编码为一个二维向量序列(wi, vi)
  • 在解码时,指针网络指向背包中要包含的物品
  • 当收集到的物品的总重量超过重量容量时停止

实验结论 【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

  • 第一个基线是贪婪权重-价值比启发式
  • 第二个基线是随机搜索
  • 在这里我们抽样尽可能多的可行的解决方案看到主动搜索。
  • -RL pretraining- greedy生成的解决方案平均只比最优值低1%
  • =而Active Search将所有实例都解决为最优

相关文章:

  • 2021-09-04
  • 2021-12-23
  • 2021-09-25
  • 2021-04-12
  • 2021-09-10
  • 2021-11-12
  • 2021-11-17
  • 2022-01-09
猜你喜欢
  • 2021-09-22
  • 2021-08-08
  • 2022-01-03
  • 2021-11-04
  • 2021-10-27
  • 2021-07-21
相关资源
相似解决方案