[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

本文针对曼哈顿V2V网络中长期性能，通过结合信息年龄的资源管理进行了优化。通过观察每个时隙的全局网络状态，RSU将为VUE对分配频带并调度包的传输。本文将随机决策过程建模为一个离散时间MDP。技术难题包括：交通信息到达的高移动性和时变性带来的最优控制问题。解法为，首先将原始MDP分解为一系列VUE对的MDP。对于VUE在局部网络状态空间中的部分可观测性和高维诅咒，通过基于LSTM和DQN的算法加以解决。利用该算法，RSU根据部分观测在每个调度时隙以分布式的方式进行最优频带分配和分组调度。

介绍

V2V很重要，但RRM（无线资源管理）是一个问题，有很多人尝试解决，但研究都集中在即使性能优化上，而忽略了网络的动态性，如通信质量和交通信息的时空变化。

MDP被广泛用于V2V网络长期RRM中，有很多人尝试用基于学习的方法加以解决，但都没有考虑车辆的移动性，因为移动性提供了在不同组的VUE对之间共享频率的可能性。

本文已曼哈顿V2V为场景，设定交通信息时变，结合AoI(信息年龄)对系统长期性能进行了优化，本文主要贡献如下：

将RRM问题建模为单代理MDP，RSU周期性地对频带分配和分组调度进行规划，以优化VUE对的长期性能
为处理VUE对增加带来的决策动作空间过大的问题，将MDP分解
为解决移动性导致局部状态空间大的问题，假设VUE仅可观察部分环境，通过LSTM和DRL手段使用部分观测获取最优行动。算法使用在RSU的离线集中训练，和VUE的分布式测试。

系统描述

网络和信道模型

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

如上图所示，车辆密度一定，有K个VUE对，共享B个正交频带，时间被分成时隙（每个时隙长 [精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective ，用j编号）

信道模型分为三类：LOS，WLOS（两车在临近交叉口l内的垂直道上），NLOS。用 [精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective 表示信道状态，k表示VUE对的编号，j表示时隙编号。

AoI 的演进

发送端在每个预分配时隙的开端，通过频带将时间关键信息发送到接收端。用f表示k号VUE对是否在j号时隙分配到了b号频带。

用F表示k号VUE在j号时隙是否分配到了频带。对于信息更新到达有一些假设：仅在开始发生，独立分布在VUE上，以速率 [精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective 平均分布在时隙上。表示k号VUE在j号时隙的数据包到达数量。

f为k号VUE在j号时隙得到的频率分配。VUE对的功率消耗为：

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

C为干扰，W为频带带宽，\mu为包的尺寸，R为包的数量，其最大为：

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

因为时间期限丢失数据包的个数为：

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

用A表示k号VUE对的Ao：

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

若当前时隙五数据包传输，则将VUE对的AoI在下一个时隙设置为\tau。

VUE对聚簇

为减轻传输中VUE对间的干扰，根据地理位置将其聚簇，共有G簇。将B个频带分给一簇中的VUE，不同簇间的频带重用。

用高斯相速度矩阵D表示地理距离信息。

簇之间的功率为：

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

问题陈述

本节将结合AoI的RRM问题描述为一个单代理MDP

考虑AoI的RRM

VUE对的局部状态信息表示为 [精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective ，包含地理位置，信道状态H，数据包X，AoI A。表示全局状态信息，表示控制策略，分别表示频带分配策略和包调度策略。效用函数为：

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

可知全局网络状态在时间尺度来看是Markov的，其状态转移概率为：

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

其中P为事件发生的概率。每个VUE对的长期效用函数为：（即状态价值函数）

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

（13）为每个VUE对的优化目标。将结合AoI的RRM建模为但代理的MDP：

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

其中U为RSU视角关于所有VUE对的瞬时效用，V为状态价值函数。

通解

使用贝尔曼方程解决。

主动式DRL解法

[精简论文笔记]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

如上图所示，先将原始的MDP分解为一系列关于单一VUE对的MDP，之后通过分布式SARSA算法求解。对于代理面对的局部观测数据和状态空间高维的问题，使用LSTM的DEL求解。

线性Q函数分解

用于最优控制策略的主动式DRL

后记：耗时2.5h，最近在写开题报告只关注问题的建模方法，后期算法有空补上