Spectrum Entropy Prediction Assisted Channel Selection for Secondary Users

二次用户频谱熵预测辅助信道选择

摘要

为了解决频谱瓶颈，减轻频谱使用的不均衡，促进频谱共享，设计了认知无线电(CR)网络。其中，信道的使用信息对于CR节点至关重要，可以为更合适和更高效的信道访问提供有效的参考信息。

频谱预测有助于帮助CR节点寻求更好的访问机会，从而提高CR节点的性能。在本文中，我们首先简要回顾了三种类型的频谱预测。然后，我们提出了频谱熵来测量信道接入稳定性，捕捉随时间信道利用率的变化。此外，我们还设计了一个预测频谱熵的混合模型。根据我们对现实世界频谱数据进行的实验表明，对频谱熵的预测可以帮助城市地区的二次用户(SUs)选择拥有更足够的可利用时间的信道。

介绍

针对频谱资源的稀缺性，CR技术是一种有效缓解了需求频谱与供给频谱差距的技术[1]。

信道信息对CR网络的性能至关重要。在CR网络中，主用户(PU)拥有授权信道。一个SU只能借用授权通道，而不干扰PU。一旦PU使用信道，SU必须停止通信，并切换到新的可用信道，以恢复沟通。但是，这种频繁的信道交换带来了严重的丢包、延迟和网络性能的恶化问题。频谱预测可以帮助SU选择负载较轻或中等的信道，以降低信道转换和传输中断的概率。

然而，现有的工作大多集中在信道状态或利用率的预测[2-5]。在相对较长的周期内准确预测信道状态是极其困难的。而短期的信道状态预测不足以满足覆盖SU对一个完整的空置信道的需求。

并且，信道利用率无法衡量PU占用信道的频次。有些信道，虽然信道利用率低，但是PUS频繁短访问，显然对于SU来说不是一个好的选择，因为它会对SU造成太多的通信中断。因此，有必要设计一种新的度量来描述信道的变化，这对于辅助SUS的信道选择具有重要意义。

预测信道稳定性有几个挑战。

首先，原始频谱数据包含随机误差和噪声。因此，我们需要识别不同类型的误差和噪声，然后分别处理。
第二，频谱数据表现出非常复杂的时空变化。因此，很难捕捉频谱序列的特征，建立预测模型。采集得到的频谱数据，形成的频谱时间序列包含线性分量和非线性分量。
自回归综合移动平均模型(ARIMA)是线性时间序列中最流行的预测方法之一，但它很难捕捉非线性时间序列的特征。支持向量回归(SVR)等预测非线性时间序列的方法，由于频谱数据嵌入的线性分量，并不太适合。此外，不同PU用户对应于不同波段的访问行为差异很大。建立一个达到高精度的通用预测模型是一个相当大的挑战。

在这些观察的启发下，本文重点研究了信道预测和对它信道访问的选择的提升。首先，我们回顾了目前关于信道预测的研究进展。然后，我们提出了一种新的频谱熵来衡量未知信道是否占用状态的稳定性。我们证明，对频谱熵的预测可以帮助SU选择具有更好的稳定性的信道，以避免信道访问的频繁中断。

信道预测方法

频谱利用率的预测对于设计和优化频谱接入策略具有重要意义。目前对频谱预测的研究主要分为三大类：信号强度、信道状态和占空比。

对接收信号强度的预测

接收信号强度(RSS)表示信道的总使用量。 [6-9]提出了各种线性方法来模拟RSS的变化。

在[6]中，使用了基于指数移动平均模型（ the Exponential Moving Average model ）预测频谱的RSS（接受信号强度），其中模型的加权因子随数据时间呈指数下降。该方法适用于有轻微变化的频谱。
在[7]中，作者采用二阶自回归模型（ the sec ond order Autoregressive Model ）对RSS（接受号强度）进行建模。
在[8]中，使用自回归移动平均模型（ Auto-Regressive and Moving Average model ）来预测电视频道的RSS接受信号强度。
在[9]中，对于非平稳时间序列，使用ARIMA模型来预测有效，因为它可以将非平稳RSS转化为平稳时间序列。
在[5]中，作者对多维频谱数据进行建模，然后用卡尔曼预测算法对RSS进行估计。

对信道状态的预测
信道状态是信道是否占用的显示。大多数研究假设二进制信道状态是一个马尔可夫过程，信道状态变化基于泊松分布【10】因此，马尔可夫模型经常被用来预测信道状态[10]。然而，一阶马尔可夫方法只能在大约55%的信道上实现明显的性能改进，因为信道的行为不同（不符合马尔可夫？） [11] 。
机器学习方法在信道状态预测中得到了研究[2-4]。其中， [2]应用小波神经网络对100-200M Hz波段的信道状态进行预测。基于频域-时域相关性，采用频繁模式挖掘方法预测信道可用性[3]，采用长时记忆网络预测频谱可用性[4]。

对占空比的预测
占空比表示信道的可用时间和繁忙比例，对信道选择非常有帮助。
在 [12]中，作者开发并验证了一基于能量检测占空比预测模型，以预测信道在任何地理位置的占空比，该方法基于平均噪声功率和平均RSS（接收信号强度）可以充分建模为高斯随机变量的前提。
在[13]中，应用距离因子递归最小二乘法预测多通道的繁忙概率。
在[14]中，利用两态的离散时间马尔可夫链对频谱占空比变化进行建模。

信道使用的预测受到了广泛的关注，但对较长时间内频谱利用率稳定性的研究仍然有待研究。在本工作中，我们提出了一种衡量信道稳定性的度量方法和相应的预测方法。

频谱熵计算

为了避免频繁的通信中断，SU更喜欢长时间不使用或空闲的信道。但是，随机频谱利用率导致频繁的频谱切换，从而降低了SU的传输性能。因此，有必要研究信道稳定性，这在以往被认为是不确定的。香农熵是衡量信息不确定性或无序性的经典指标。基本原理是，低概率事件/值的发生比高概率事件/值带来更多的信息。基于香农熵，我们将谱的不确定性或稳定性定义为频谱熵。显然，具有极高随机性的频谱使用表明了信道的不稳定。

频谱熵基于量化频谱使用率，是一个离散的随机时间序列来计算。由于信道利用率范围【0,1】该区间均匀划分为 L量化子区间。给定信道i的量化信道利用率序列{ui（1）、ui（2）、...、ui(N)}，信道i的频谱熵计算公式为：

Spectrum Entropy Prediction Assisted Channel Selection for Secondary Users

其中N是数据样本总数，nk是数据样本数值为第k个量化子区间的数量。此外，我们还应用了最小-最大归一化方法（ min-max normalization），该方法可以在归一化后的预测中保持原始数据中的关系。

频谱熵预测

在图1中所示。频谱熵预测由数据采集，数据预处理，特征提取和预测模型四个部分组成。

用频谱监测装置，首先采集感知信号功率进行数据预处理。数据清洗提高了实测信号强度原始数据的质量，处理了冗余、异常值和数据丢失。之后，将预处理后的数据转化为归一化谱熵。然后，通过在预测中使用的特征提取来探索嵌入在频谱序列中的周期特征。最后，为了帮助提高信道接入的稳定性，可以用所提出的混合预测模型估计频谱熵。

数据预处理

我们使用一个自行开发的便携式设备收集频谱数据，该设备测量频谱的RSS（接受信号强度）。 所监测的频谱涵盖六个广泛使用的频带，共有263个信道，由相应模块 并行扫描，包括

315MHz(300MHz∼348M Hz)
433MHz(387MHz∼463.8M Hz)
470MHz(471.25MHz∼509.75M Hz)
CDMA(上行链路：826.11MHz∼833.49MHz；下行链路：871.11MHz∼878.49MHz)
GSM(上行链路：885.2MHz∼909MHz；下行链路：948.9MHz∼959.7MHz)
2.4G Hz(2412MHz∼2472MHz)。

扫描速率分别为8.5ms、7.1ms、7.5ms、11.4ms、9.35ms和6.5ms。每个波段按标准分为多通道。在315MHz和433MHz频段信道带宽为1.6MHz。在470MHz、CDMA和2.4GHz波段的每个信道分别占用1.5MHz、1.23MHz和5MHz。GSM频段的上行和下行信道占用带宽分别为0.2MHz和0.4MHz。采集数据的采样率为5Hz。

对于收集到的数据，有一些类型的错误根据它们的属性分别处理。

冗余数据：

在同一时刻为一个通道生成两个相同的记录。重复可能是由于传感或存储模块的制造不完善或一些外部因素造成的。同一频道一次只保留一条记录。

离群值：

离群值可能是由于模块的瞬态故障或特殊事件的发生引起的。首先用Zscore来仔细检查异常值，异常值是远离数据平均值的标准差数。

由于无线环境的动态和不可预测，很难将离群值或错误与可能包含重要信息的意外通信事件引起的信号变化区分开来。意外的强信号通常持续很短的时间。此外，极短的强信号只对频谱熵的预测有轻微的影响。因此，我们进一步分开持久出现的离群值，只有在一定持续时间内存在的强信号才被认为是一个特殊的事件。其他情况，都不认为是错误。通信会话建立的时间或持续时间因通信协议的不同而不同。在我们的实验中，持久性时间被设置为0.5秒，这在CR网络或移动和自组网上的一些论文中已经使用过。

缺失数据：

缺失数据可能是在存储过程中没有记录数据，或者传感模块没有收集数据。有两种缺失的数据，即短期数据损失按秒级和长期数据损失超过分钟。对于短期数据丢失，缺失的数据用前面四个数据样本的平均值填充。这些样本高度相关，很少突然变化。为了解决长期数据丢失的问题，我们建立了一个高斯模型，该模型基于与数据丢失的一天前后相同时段的数据。然后用高斯模型生成的数据样本对丢失的数据进行仿真。由于相关性衰减与24小时的时差如图2所示，所以使用相邻天数的数据来帮助恢复丢失的数据。

在数据清洗和恢复后，通过将每次测量的RSS（接收信号强度）与功率阈值进行比较，确定信道状态为空闲或繁忙，根据噪声基准测量，功率阈值为-100dbm。此外，信道利用率是通过对每个信道T个信道状态的平均来计算的。在有了信道的使用率之后，根据得到的利用率序列每个小时计算一些频谱熵。

特征提取：

如果频谱数据是独立分布的，就不可能利用历史信息建立预测模型。自相关序列显示了数据中的循环特征。为了保证预测的可行性，我们用以下系数研究了频谱熵的时间序列中的自相关性。这里h(m)是长度为M的频谱熵。

图2显示了433MHz和GSM波段的自相关作为一个例子。频谱熵中可以观察到强正自相关。自相关每24小时达到局部最大值，然后随时间逐渐衰减。不同的频带在自相关中表现出相似的模式，尽管局部最大延迟值在不同的周期，但是大部分是自相关延迟为24。作为一个重要特征，和局部最大值有关的自相关延迟被采用。

混合预测模型

从现场实验中收集到的频谱序列是复杂的，包括线性分量和非线性分量。为每个波段甚至每个信道建立一个单独的模型可以达到最优的性能，但考虑到频谱的宽范，这种想法需要建许多模，并且不方便在宽频谱上进行预测。为了使用一个通用的框架来解决问题，以方便对整个频谱进行预测，我们用线性和非线性模型来捕获随机和连续的特征。然后用数据分别对每个波段的模型参数进行训练，以达到较高的预测精度。

这样，我们就可以建立一个通用模型，该模型可以用针对每个波段的参数来捕获特征。 ARIMA是线性时间序列中最流行的预测方法之一，但是，它很难捕捉非线性时间序列的特征。所以，一方面，我们在混合模型中加入ARIMA来处理频谱序列中的线性分量。神经网络和支持向量机是预测非线性时间序列的常用方法。神经网络是基于经验风险最小化实现的，可能陷入局部最优。 SVR模型采用结构风险最小化原则，来最小化泛化误差。因此，SVR模型在建立非线性模型方面是有效的，可以达到全局最优。将SVR模型纳入我们的混合预测模型中，以达到较高的预测精度。

我们提出的混合预测方法 ARIMA_PSO_SVR，如图三所示，预测结果 Spectrum Entropy Prediction Assisted Channel Selection for Secondary Users

，其中X^表示ARIMA的初步结果； E=H-X^是ARIMA和原始谱熵预测的差异。首先，用ARIMA处理预处理的数据，处理谱熵的线性分量，得到初步的预测结果。残差E包含频谱熵的非线性分量。然后，SVR方法预测残差分量，图2中的自相关，显示其24小时的周期性相关性。因此，我们在SVR模型中对所有波段使用维数为24的残差E矩阵。对于SVR模型，我们选择高斯核，因为可以在相应的特征空间中构造线性回归函数。 SVR的预测性能在很大程度上取决于参数，即正则化参数和高斯核的宽度。我们使用粒子群优化(PSO)算法来寻求SVR参数的良好组合。通过模拟鸟群行为，粒子在寻找最优解时交换位置，所有粒子都向更好位置移动。最终，粒子群将收敛到最佳位置。只优化几个参数，方便实现PSO。

使用 预测结果的均方误差函数用于评估SVR预测性能的PSO适应度函数。因此，我们可以根据频谱熵数据为模型寻找合适的参数。

在输入数据为E(T)=(e(t-24)、e(t-23)、...、e(t-1))、t>24的情况下，PSO_SVR模型的预测结果E^=(e^（25）、e^（26）、...、e^(n））为

其中b是偏置项，bi和b*是拉格朗日乘子。

有n个由E(I)表示的支持向量。ε，ζ和σ 分别表示高斯核的公差参数、松弛变量和宽度。最终结果是ARIMA和SVR模型预测结果的总和。最终结果是ARIMA和SVR模式的预测结果之和。

实验频谱数据集

这个接受信号强度(RSS)收集在位于中国深圳的一个住宅区，涵盖六个波段，共计263个信道。 2013年7月22日至9月22日进行了测量。每个频道在一天内收集了432000个数据条目。因此，单日数据集包含432000*263=113616000条记录。每小时计算频谱熵。频谱熵的整个数据集平均分为两个子集，一个子集用于训练，另一个子集用于测试。

预测精度

我们将所提出的方法与ARIMA、Grid_SVR和PSO_SVR进行了比较。其中Gird_SVR方法，通过网格搜索实现了参数最优。粒子数从100到200不等，以求复杂问题的最优解。以下为一些参数设置：

根据实验，在大多数情况下，经过300到600次迭代，可以得到最优解。为了防止过早搜索过程，我们将迭代次数设置为800次。
在ARIMA中，参数包括差异程度、自回归顺序和分别设置为[0,2,1,5]和[0,5]的移动平均项。
SVR参数是正则化参数、高斯核宽度和容差参数，其范围因频带而异。

此外，我们还研究了与其他三种方法中达到最佳预测精度的模型相比，我们的模型的改进，如表1所示。

对于这六个波段，所提出的ARIMA_PSO_SVR模型与ARIMA、Grid_SVR和PSO_SVR相比，平均预测精度分别提高了46.35%、43.98%和32.86。归一化后的平均绝对误差.
我们的模型在470兆赫波段获得了44.93%的最高改进，这是用来提供电视服务的频段。这个波段的利用率变化缓慢，主要是一个确定性的成分。更精确的模型导致更高的精度提升。
该方法在CDMA、GSM和2.4GHz频段的预测中实现了小于30%的改进。其根本原因可能是由于与其他三个频段相比，这几个频段存在大量潜在用户的随机访问行为。

结果表明，单一的线性或非线性预测模型很难准确地捕获复杂的频谱数据，因此对现实世界的频谱数据来说，混合模型是必要的。

稳定性改进

预测频谱熵的分布如图4所示，它包括了470MHz和CDMA频段，时长两周的数据。蓝线表示相同信道利用率下不同频谱熵。这条线清楚地表明，利用率为0.1的信道在频谱熵上可能有很大的变化。因此，单靠信道利用率不足以决定选择哪个信道接入。

为了评价不同信道选择准则的性能，我们计算了信道空闲的持续时间，即信道在一小时内的可用周期之和。当利用率高于0.5%时，假设信道太忙，不适合机会访问。因此，我们只计算利用率小于0.5的信道的可用周期。从0到0.5，利用率平均分为五级。然后根据信道的利用率将信道分为五组。我们计算信道可用次数，即所选信道可供SU在一小时内的使用次数。然后，计算每个组的信道可用的平均持续时间。

我们的方法和仅仅采用利用率的方法，所选信道的平均、最坏和最佳可用时间如图5所示。

对于这五组，我们的方法和仅依赖利用率的方法分别达到最佳可用时间55.8分钟和46.4分钟，最差可用时间39.8分钟和32分钟。与仅基于信道利用率的信道选择相比，该方法平均可提高信道可用时间22.57%。结果表明，我们方法的提升随着信道利用率的提高而提高。换句话说，所提出的方法在第5组信道的可用时间上达到了37.84%的最高改善，第五组的利用率在[0.4，0.5]。这两种方法都获得了第1组中通道的完整通道可用时间60分钟。其根本原因是，当信道利用率很低时，这两种算法都可以很容易地找到SU的理想信道。当信道负载适中时，我们的算法比基于利用率的算法具有优势，这证明了它在一般实际场景中的有效性。

目前CR网络的接入方案一般是根据信道利用率来选择信道。然而，相同信道利用率的信道之间供SU使用的性能差异很大，因为信道经常被PU回收的频率不一样。从这个意义上说，信道可用性时间结束。因此，低利用率和稳定性高的信道更有利于SU，因为它可以支持更长时间的信号传输。而我们所提出的频谱熵可以用来测量信道稳定性。因此，选择基于频谱熵和信道利用率的预测信道可以提高通信链路的寿命。

结论和未来的工作

针对 opportunistic channel access 所必需的精确信道状态预测，我们提出了频谱熵作为一种新的度量来衡量信道状态的变化频率。通过频谱熵预测，SU可以找到一个具有稳定访问权限的信道，以减少信道切换或传输中断。由于我们发现采集到的频谱数据的复杂性质，提出了PSO_SVR ARIMA_混合预测模型来处理频谱数据的线性和非线性分量。一个基于六个波段的现场测量数据的实验表明，ARIMA_PSO_SVR可以平均提高41.62%以上的预测精度。此外，基于频谱熵预测和信道利用率的信道选择选择选择了稳定性最高的信道，平均提高了22.57%信道接入时间。

在目前的工作中，我们只关注从一个设备收集的数据，而来自多个设备的数据可能会导致更多的发现。我们将进一步研究覆盖不同功能区的更多设备和移动传感得到的数据。此外，我们还从平稳CR网络的角度研究了频谱的稳定性。研究我们的预测模型在移动CR网络的提升及其效果将是非常有趣的。

工作得到了授予JCYJ20170818163403748的深圳基础研究计划和深圳城市计算和数据智能学科建设项目的支持。黄的工作得到了NSFC-广东联合计划资助U1501255和广东青年创新人才专项支持计划资助2016TQ03X279。