Hulu沙龙 | AI技术实践应用专场

HULU AI CLASS

技术实践应用专场活动

2020 10/21 Hulu

点击“阅读原文”查看直播回放

导语

今年年初,Hulu联合人民邮电出版社出版了《百面深度学习》,受到了广泛的好评。在此之前,2018年《百面机器学习》一经推出就多次再版,成为在校学生和人工智能从业者学习人工智能的利器。同时,在人工智能顶会如NeurIPS, ICLR, ICML等会议上也常见Hulu的身影。

Hulu是Disney旗下的美国视频在线服务公司,它的用户和产品服务主要面向美国市场。Hulu北京办公室是Hulu的唯一海外办公室,它提供和支持了Hulu个性化推荐、内容发现与算法运营、视频编解码优化、个性化广告推送等核心技术服务。算法和创新研究一直是Hulu北京办公室的特色之一。为了感谢大家对Hulu的关注,对“百面系列”的认可和长期支持,Hulu联合人民邮电出版社和DataFun平台组织了这次线下技术沙龙,期望和大家实现面对面的交流,并分享一些算法团队的算法项目和工程实践经验。

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

点击下方视频观看当天活动vlog

Hulu沙龙 | AI技术实践应用专场

内容分享

分享主题一:大规模图神经网络计算中的算法技术

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

Hulu算法研究员Xiaoran的本次报告旨在分享大规模图神经网络算法设计中的一些优化思路。分享伊始,报告先回顾了图神经网络的基本计算框架,以 message-passing 算法为例,一次传播迭代包括:计算源节点向终节点发送的 message 向量,合并终结点收到的 message 向量,以及更新每个节点的状态向量。接着,报告围绕计算框架分析了导致高计算复杂度的原因,然后提出了九个优化思路,分别从维度分解策略、节点划分策略、图的稀疏计算、临时记忆模块以及蒸馏方法等展开探讨。

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

分享主题二:视频广告系统中的多因素投放算法

来自广告算法组的Chunyang给大家带来了主题为《视频广告系统中的多因素投放算法》的分享。商业广告是Hulu的重要变现手段之一,视频网站中的广告以合约担保式、品牌类广告为主,少部分为私有制程序化广告以及交互式广告。

分享分为三部分:第一部分首先介绍了Hulu平台的主要广告形式及特点,以及在广告业务中的主要算法研究问题。第二部分介绍了在广告保量控制、节奏控制、频次控制、优先级设置、媒体平台的总体收益以及用户体验的优化多种因素下,如何设计一个好的投放算法。第三部分介绍了在算法评估实验平台方面的实战经验。

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

分享主题三:Content Retrieving and Ranking in Hulu

推荐算法组的Jiarui先介绍了Hulu推荐算法的应用业务场景,包括:内容召回排序,品类召回排序,相关召回排序和列表召回排序。然后介绍了Hulu推荐算法的特色包括:多场景多业务多模型,相对小的后选集合,核心优化指标,内容发现和持续观看的两种分布模式,直播和点播两种分布模式等等。最后介绍了Hulu的几个推荐算法技术,包括:next item prediction, ctr prediction,multi-task learning 和relevance merging。

Hulu沙龙 | AI技术实践应用专场

 -END- 

Hulu沙龙 | AI技术实践应用专场

分享主题四:Hulu搜索引擎技术实践

在这个主题中,搜索组的Min分享道:搜索引擎是内容发现的重要途径,准确理解用户搜索意图是搜索要解决的基本问题之一。个性化搜索结合输入的查询词和用户行为体现出来的用户兴趣更加精准地理解用户查询意图。为此, 在算法方面我们改造了经典的孪生网络做内容检索,并在排序阶段用Wide&Deep 模型融合了用户、查询词、文档三方面的特征输入综合判断每个候选的点击概率。在数据处理上, 我们在离线、近线和实时三个维度收集了用户在首页、搜索页以及其他各个页面的行为信息。搜索引擎是一门系统科学, 好的搜索效果离不开高效稳定的工程架构,高质量的数据处理过程以及对问题准确刻画的算法设计。因此还讨论了垂直搜索领域三者的相互关系作为结束。

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

分享主题五:Machine Learning 技术在视频编解码和流媒体传输中的应用及探索

视频算法组的Wenhao分享道:Hulu拥有类型非常丰富的视频内容,同时有覆盖广泛的终端和用户。为了给广大用户提供最好的视觉观看体验,我们依托于高效的体系架构和海量的内容数据、用户数据,在视频编解码和视频流媒体传输服务的很多环节中引入了机器学习算法,取得了显著的成果。

‍ ‍ ‍ ‍ ‍

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

Hulu沙龙 | AI技术实践应用专场

分享主题六:Content Embeddings in Hulu: Generation & Application

来自视频内容理解组的Yunsheng分享道:Hulu作为美国领先的互联网视频流媒体平台,拥有大量的电影、电视剧等视频资源,对这些内容的理解和表示是Hulu的一个重要研究方向。Embedding技术最近很火热,在不少领域有着成功应用。作为Hulu的内容理解团队,我们最近也在content embedding这个方向有一些探索和研究,与大家分享一下,希望能够相互学习。

 

Hulu上的每个剧(show,包括TV和movie),除了用户观看的视频(video data)外,还有很多与之相关的描述信息(metadata),包括show的标题、简介、导演、演员、类型(genre)、发行日期、获奖情况等,以及描述show内容的一些关键词(keywords),如下图所示:

Hulu沙龙 | AI技术实践应用专场

这些丰富的metadata和video data信息,模态不一,刻画内容的不同维度,这也使得后续对于show的分析与使用变得比较复杂,经常需要耗费不少精力去理解和挖掘这些metadata/video data中蕴含的信息。

 

Content Embedding技术将内容表示为向量,从而便于后续算法/模型的处理和分析。具体来说,我们尝试将show的这些metadata/video data 信息转化为一个低维稠密向量(即embedding),并尽可能保证内容比较相似的shows所对应的向量也比较接近。

 

由于向量在数学上比较容易分析,在计算机编程中也比较容易实现,因此,将内容转化为embedding向量后,可以比较方便地进行show的分析(比如不同show之间的相关性可以直接用向量的余弦相似性来刻画),以及作为其它模型的输入数据(input features)。

 

Content embedding的主要难点在于:首先,每个show的信息涉及到多个

模态的数据(文本、图片、视频、音频),它们具有不同形式和特性,需要有针对性地考虑;其次,Hulu上的show是长视频,用一个向量来表示几个小时甚至几十个小时的内容,信息压缩率非常大,对算法很有考验;最后,由于content embedding是没有ground-truth的,这不利于模型的训练和评估。

‍‍‍‍‍

Hulu沙龙 | AI技术实践应用专场

‍‍‍

最后,针对不同数据的特点,我们使用Graph Embedding模型、Metadata-BERT模型和Two-Level-BERT模型来分别处理其中的tag类型数据、文本数据以及视频数据,得到了 tag-based embedding、textual embedding、visual/audio embedding等多种类型的content embeddings。

这些embeddings在Hulu的很多业务场景中都有所应用,包括计算不同show之间的relevance(可以用在You May Also Like、UpNext场景中)、作为show的表征数据输入给推荐模型(例如TV/Movies Ranker, Personalized Collection Selector等)、内容冷启动中平衡content信息和co-watch信息,以及基于content embedding来对collections进行建模以达到对collection的更新、扩展和自动生成等目的。

Hulu沙龙 | AI技术实践应用专场

长按关注Hulu

获取更多技术分享动态

↓ 点击“阅读原文”

直达回放链接

相关文章: