【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

目录

论文

一、概论
二、模型

参数
公式
网络

Critic网络
actor-critic算法

搜索策略

三、实验及结果

几种不同的实验组合
实验结论

四、迁移到背包问题

定义
实验结论 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200519165501917.png)

论文

强化学习+指针网络+组合优化

一、概论

主要是用强化学习中的策略梯度方法，来计算为TSP建立的指针网络模型的参数。同时发现策略梯度+主动学习的效果更好

二、模型

参数

s：是输入的序列坐标集
$\theta$ ：网络的参数
$\pi$ ：一种策略（参数）的输出结果

公式

定义结果好坏
$\pi$ 结果出现的可能性【链式展开】
定义在 $s$ 的空间中，参数为 $\theta$ 的L的期望值
$s$ 是 $S$ 空间中的一个分布（子集），所以定义总的 $L$ 为——期望
求3式的梯度——利用强化学习中的方法
其中 $b(s)$ 式不依赖于策略 $\pi$ 的基准值，可以用来表示基准来减小梯度
梯度近似表示——用蒙特卡洛采样
$B$ 是从 $S$ 中抽样的结果（输入图）
在策略 $\pi$ 下，每个输入图，有多个输出结果，仅采样一个。
如何确定 $b(s)$
最简单的方式：计算在一段时间内，网络获得的奖励的指数移动平均值，来反映策略随着训练不断改进。 $b$ 是批处理的共享，所以可能存在某个s的最优 $\pi$ 结果，任然大于 $b$ 。
定义critic网络
希望训练出一个网络，参数为 $\theta_v$
输入某一个起始图 $s$ ，输出该策略的基准值 $b$

网络

Critic网络

LSTM编码器——与Ptr类似（一系列潜在记忆状态、一个隐藏状态h）
LSTM块——对h执行p个步骤的LSTM操作
2层ReLU网络，将输出转化为一个值（表示b）

actor-critic算法

【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

搜索策略

在本TSP问题中，评估一个解的好坏成本不高，可以考虑每个输入图的多个候选解，并选择最佳解来模拟搜索过程。主要是抽样搜索和主动搜索。

抽样搜索
输出softmax表示每次访问点的概率，贪婪算法就是每次都选择概率最大的。这里引用了温度超参数模型，softmax(u/T)，可以有效改进。
主动搜索
若用固定的采样模型，就忽略了奖励值这一信息。可以在单个测试输入中细化参数 $\theta$ ，进行进一步优化策略参数。

三、实验及结果

几种不同的实验组合

【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

实验结论

【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING
结果表明：

使用RL进行训练显著改善了监督学习(Vinyals等，2015b)。
我们所有的方法都轻松地超越了Christofides的启发式方法，包括不依赖于搜索的RL预训练-贪婪方法。
在推断时进行搜索对于接近最优性非常重要，但这是以更长的运行时间为代价的。
幸运的是，RL预训练采样和RL预训练活动搜索的搜索可以通过在最终目标方面进行小的性能权衡而提前停止

四、迁移到背包问题

背包问题定义【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

定义

我们应用指针网络，将每个背包实例编码为一个二维向量序列(wi, vi)
在解码时，指针网络指向背包中要包含的物品
当收集到的物品的总重量超过重量容量时停止

实验结论

第一个基线是贪婪权重-价值比启发式
第二个基线是随机搜索
在这里我们抽样尽可能多的可行的解决方案看到主动搜索。
-RL pretraining- greedy生成的解决方案平均只比最优值低1%
=而Active Search将所有实例都解决为最优

相关文章：

2021-09-04
2021-12-23
2021-09-25
2021-04-12
2021-09-10
2021-11-12
2021-11-17
2022-01-09

猜你喜欢

2021-09-22
2021-08-08
2022-01-03
2021-11-04
2021-10-27
2021-07-21

相关资源

下载 2023-02-22
下载 2023-01-14
下载 2022-12-11

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode