引言

协同过滤模型的一个很大缺陷在于很难处理冷启动问题,基于内容的推荐是一种解决思路,例如对于系统中的新物品,可以将其推荐给喜欢系统中相似物品的用户,对于新用户,可以给其推荐类似的用户所喜欢的物品。

这里会涉及一个问题,即如何对用户建模,以计算其之间的相似度。不少相关文献已经尝试过使用用户的搜索记录社交帖子等数据作为对用户建模的原始数据,本文就是采用用户的搜索记录作为用户建模的数据的。

跨域推荐也是一种缓解冷启动问题的思路,其基本假设是:在同一个领域具有相似品位的用户在另一个领域也具有类似品位

跨域推荐实际上是基于“人以群分”的思路,但是即使用户确实存在分群,在不同领域(例如游戏和音乐)具有不同爱好也是很合理的。而跨域推荐之所以有效,我认为还是在于一种现象:同一兴趣点的跨载体呈现。正如文中举的一个例子:people who visited fifa.com will like to read News articles about the World Cup and play soccer games on PC or Xbox。在新闻领域都喜欢看世界杯相关新闻,可能在电子游戏领域都喜欢玩足球游戏,这其实是因为他们都喜欢足球,这个兴趣点在新闻和游戏两个领域有不同的载体而已。

本文基于DSSM模型进行改进,提出了一种基于内容的推荐模型,可以用于跨领域推荐,以缓解冷启动问题。

DSSM

论文笔记:A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems

DSSM本来是用于做文档匹配的,例如对于用户的查询Query,我们由一系列文章,可以用DSSM模型算一下查询Q和每个文章D的相似性,相似性高低可以用于排序。模型结构如上图所示,就是2个MLP,大家也叫这双塔模型,每个塔(MLP)的参数是独立的,最后的 y Q y_Q yQ y D y_D yD作为Q和D的表征,用于计算余弦相似度。对于所有文章的相似度得分进行softmax操作,就可以得到每篇文章被点击的后验概率:

论文笔记:A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems

训练目标是最大化用户实际点击的文章 D + D^+ D+ 的似然。一般情况下并不会对所有文章都计算一次相似度,而采用的是负采样的方法,即每个正样本都对应地随机采样 N N N 个负样本(搜索场景下可以是曝光后用户没有点击的样本),然后当做 N + 1 N+1 N+1 分类问题来使用softmax+交叉熵损失。

MV-DSSM

相关文章: