一、CDBTuner大致流程:

1、创建DDPG模型

2、提取current_Knob

(3-6循环,直至训练完成)

3、提取current_stateinitial_metrics

4、将current_state输入到DDPG中确认下一步的actionKNOB

5、将新Knob设置到mysql中,然后计算rewardnext_state, next_initial_metrics.

6、更新DDPG网络。

二、CDBTuner强化学习模型

复现模型CDBTuner

 

复现模型CDBTuner

1首先从经验回放内存中提取一批转换(strtatst+1)。

2我们将st+1输入到actor网络,并输出旋钮设置a′t+1

3st+1a′t+1发送到critic网络后,得到Vt+1的值。

4、计算Vt+1 + rt = V’t   stat的值输入到critic网络得到的是Vt,计算V’t Vt的差值作为损失函数,更新critic网络。

5、利用policy gradient算法(Vt)来更新 actor网络。

注:其中reward计算方式如下:

复现模型CDBTuner

三、复现的实验结果对比

1、开始sysbench的测试结果

复现模型CDBTuner

2、结束时sysbench的测试结果

复现模型CDBTuner

3、论文中的实验结果:

复现模型CDBTuner

复现模型CDBTuner

注:实验环境为CDB-A

相关文章:

  • 2021-11-17
  • 2021-08-06
  • 2021-09-17
  • 2021-09-04
  • 2021-12-12
  • 2022-12-23
  • 2021-04-17
  • 2021-07-26
猜你喜欢
  • 2021-11-29
  • 2021-11-22
  • 2021-04-24
  • 2021-07-05
  • 2021-12-01
相关资源
相似解决方案