“百面深度学习”系列连载 第十一期

竞价策略设计

引言

计算广告业务里,实时竞价是一种重要的交易机制,在一次实时竞价交易中,广告主根据广告位的信息,制定一个合理的竞价,流量供给方选择出价最高的广告主投放广告,广告主付出的价格为第二高的竞价。实时竞价广告的计费方式有多种,主流的方式是按点击收费(cost per click, CPC)。

在这个业务模型中,广告主需要一个竞价策略,给出每个流量的竞价。策略面临的约束是预算,含义是广告主在一段时间内的总花费不能超过一个固定的数值。策略的收益可以用广告的总点击次数衡量。这样,在预算约束下,给出最优的竞价策略就是一个对广告主而言很有意义的问题。

问题

用强化学习给广告主的竞价策略优化问题建模,并设计一个用深度网络实现的例子。

分析与解答

百面深度学习 | 第十一期:竞价策略设计

百面深度学习 | 第十一期:竞价策略设计

百面深度学习 | 第十一期:竞价策略设计

收益

百面深度学习 | 第十一期:竞价策略设计

那么,价值函数满足:

百面深度学习 | 第十一期:竞价策略设计

百面深度学习 | 第十一期:竞价策略设计

百面深度学习 | 第十一期:竞价策略设计

百面深度学习 | 第十一期:竞价策略设计

百面深度学习 | 第十一期:竞价策略设计

百面深度学习 | 第十一期:竞价策略设计

百面深度学习 | 第十一期:竞价策略设计

百面深度学习 | 第十一期:竞价策略设计

百面深度学习 | 第十一期:竞价策略设计

[1] CAI H, REN K, ZHANG W, 等. Real-time bidding by reinforcement learning in display advertising[C]//Proceedings of the Tenth ACM International Conference on Web Search and Data Mining. ACM, 2017: 661–670.

[2] WU D, CHEN X, YANG X, 等. Budget constrained bidding by model-free reinforcement learning in display advertising[C]//Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 2018: 1443–1451.

下期预告

网络通信

引言

网络通信技术是互联网发展的核心技术之一。在计算机网络中,每一个计算机设备都可以被看作一个节点,节点之间通过网络链路交换数据与信息。这样一个由节点、链路组成的网络叫做计算机网络,而在这个网络之中用来通信的技术,被称之为网络通信技术。网络通信技术支撑着网络中大部分的服务与应用,例如模拟和数字的语音视频,传统的包网络传输,数据中心与存储,P2P文件分享网络,在线社交网络,分布式传感网络等。网络底层所涉及到的技术则更加包罗万象,如网络架构和设计,传输协议的设计,移动通信技术,网络硬件,网络运行管理与监控,网络安全等。

随着机器学习在各个领域作出的极为振奋人心的突破后,网络通信领域的研究学者们发现,它在一些长久以来未解决的传统网络问题,也展现了它超乎寻常的学习能力。就目前的研究发展来说,机器学习已经在以下领域对网络通信技术带来了新的提升。第一,机器学习可以帮助网络完成一些和数据相关的分类和预测任务,这些分析的结果可以更好的激发网络上层的商业能力。例如说网络带宽预测等。第二,当网络节点故障或者恶意攻击发生时,则会导致大面积的网络瘫痪,从而给更多上层的应用,商业造成不可估量的影响。而提早的检测到网络节点故障或者恶意攻击,则能够对网络的可靠性作出不小的提升。机器学习通过对数据的分析可以及时的检测出相应的问题,并自动化的进行补救工作。第三,机器学习可以帮助网络作出决定。在网络资源规划或者参数调节上,机器学习都可以自适应的进行调节。第四,许多网络问题需要处理很多复杂的网络情况。例如说CDN网络中负载情的变化,或者网络带宽的频繁抖动。相比于传统每个子问题都独立搭建rule-based的解决方案的算法,机器学习可以更好的整合问题,给出端到端的解决方案,提高算法的整合能力和适应性。

问题1

如何准确的预测一个网络中数据流量的变化一直是网络优化中不可缺少的一部分。在实际应用中,很多后续网络性能的优化都基于此研究展开。我们知道某一个节点过去的一段时间的带宽变化,我们想预测该节点未来一个时间段的带宽情况,如何使用深度学习来训练一个网络数据流量变化问题呢?

问题2

在目前工业界的流媒体传输的优化中,主要利用DASH或者HLS来完成流媒体的传输。请问有什么方法可以帮助DASH或者HLS的系统作出码率切换的决策,解决码率自适应的问题呢?

我问丁老师要不要打德扑,丁老师说,“有些游戏明知道自己会赢,就没意思了。” #过硬的理由

丁老师二三事

说明:“丁老师二三事”是取材于Hulu日常的虚构创作,如有雷同,您别当真~

关注Hulu公众号

你就是最爱学习的仔~

百面深度学习 | 第十一期:竞价策略设计

相关文章: