推荐系统论文笔记---Neural News Recommendation with Attentive Multi-View Learning

文章目录

一、概述
二、主要解决问题
三、解决思路

1、News Encoder
2、User Encoder
3、Click Predictor
4、Model Training

四、实验结果

一、概述

名称：Neural News Recommendation with Attentive Multi-View Learning
作者：Chuhan Wu, Fangzhao Wu, Mingxiao An, Jianqiang Huang, Yongfeng Huang, Xing Xie
文献类型：IJCAI19
年份：2019
源码网站：https://github.com/wuch15/IJCAI2019-NAML 作者主页：https://wuch15.github.io/
整理日期：2020年5月13日

二、主要解决问题

现有的新闻推荐系统通常只根据一种信息如标题来进行推荐。
=>使用多种信息来进行推荐。
=>新闻编码器+用户解码器。
=>新闻编码器是一个基于attention的multi-view学习模型，可以学习多种新闻表示形式（如标题、正文、主题分类等）。用户解码器是利用attention机制根据用户的浏览记录学习用户的表示。

三、解决思路

推荐系统论文笔记---Neural News Recommendation with Attentive Multi-View Learning

1、News Encoder

这一部分的功能是利用各种信息来学习新闻的表示，采用attention机制将各种信息看作是新闻的一个不同视角学习其共同表示。news encoder共有四个组成部分：

（1）title encoder：用于从新闻标题中学习到新闻的表示。

第一层：word embedding：通过 $\mathbf{W}_e \in R^{V \times D}$ ，将新闻标题从单词序列 $[w^t_1, w^t_2, ..., w^t_M]$ 转换为一个低维语义向量序列 $[\mathbf{e}^t_1,\mathbf{e}^t_2, ..., \mathbf{e}^t_M]$ ，其中M是新闻单词的个数，V是词汇量个数，D是embedding维度。
第二层：CNN：通过CNN来学习单词间上下文的表示，第i个单词的上下文表示为:
$\mathbf{c}^t_i = ReLU(\mathbf{F}_t \times \mathbf{e}^t_{(i-K):(i+K)} + \mathbf{b}_t)$
其中， $\mathbf{e}^t_{(i-K):(i+K)}$ 是(i-K)到(i+K)的单词embedding的拼接， $\mathbf{F}_t \in R^{N_f \times (2K + 1)D}$ 和 $\mathbf{b}_t \in R^{N_f}$ 是CNN的核函数和偏移量， $N_f$ 是CNN的个数，2K+1是他们的窗口大小。
这一层的输出是单词上下文表示的序列： $[\mathbf{c}^t_1, \mathbf{c}^t_2, ..., \mathbf{c}^t_M]$ 。
第三层：word-level attention network：目的是选择出标题中重要的单词。第i个单词的attention权重 $\alpha^t_i$ 计算如下：
$a^t_i = \mathbf{q}^T_t tanh(\mathbf{V}_t \times \mathbf{c}^t_i + \mathbf{v}_t) \\ \alpha^t_i = \frac{exp(a^t_i)}{\sum^M_{j=1} exp(a^t_j)}$
其中， $\mathbf{V}_t$ 和 $\mathbf{v}_t$ 是投影参数， $\mathbf{q}_t$ 是attention中的query向量。
最终，新闻标题的表示形式为加权上下文表示： $\mathbf{r}_t = \sum^M_{j=1}\alpha^t_j \mathbf{c}^t_j$

（2）body encoder：用于从新闻正文中学习到新闻的表示。同title encoder类似。

第一层：word embedding：同title encoder的word embedding层一致。通过 $\mathbf{W}_e \in R^{V \times D}$ ，正文的单词序列 $[w^b_1, w^b_2, ..., w^b_P]$ 转换为一个低维向量序列 $[\mathbf{e}^b_1, \mathbf{e}^b_2, ..., \mathbf{e}^b_P]$ ，其中，P是正文的长度。
第二层：CNN：从 $[\mathbf{e}^b_1, \mathbf{e}^b_2, ..., \mathbf{e}^b_P]$ 中学习到上下文表示 $[\mathbf{c}^b_1, \mathbf{c}^b_2, ..., \mathbf{c}^b_P]$
第三层：attention network：目的是选择出正文中重要的单词。第i个单词的attention权重 $\alpha^b_i$ 计算如下：
$a^b_i = \mathbf{q}^T_b tanh(\mathbf{V}_b \times \mathbf{c}^b_i + \mathbf{v}_b) \\ \alpha^b_i = \frac{exp(a^b_i)}{\sum^P_{j=1} exp(a^b_j)}$
其中， $\mathbf{V}_b$ 和 $\mathbf{v}_b$ 是投影参数， $\mathbf{q}_b$ 是attention中的query向量。
最终，新闻正文的表示形式为加权上下文表示： $\mathbf{r}_b = \sum^P_{j=1}\alpha^b_j \mathbf{c}^b_j$

（3）category encoder：用于从新闻类别中学习到新闻的表示。
catogory encoder的输入是一级分类 $v_c$ 的ID和二级分类 $v_{sc}$ 的ID。category encoder有两层。

第一层：分类ID embedding层。将离散的一级分类和二级分类ID转换到低维空间 $\mathbf{e}^c$ 和 $\mathbf{e}^{sc}$ 。
第二层：dense层，获得一级分类和二级分类的表示：
$\mathbf{r}^c = ReLU(\mathbf{V}_v \times \mathbf{e}^c + \mathbf{v}_c) \\ \mathbf{r}^{sc} = ReLU(\mathbf{V}_s \times \mathbf{e}^{sc} + \mathbf{v}_s)$
其中， $\mathbf{V}_c, \mathbf{v}_c, \mathbf{V}_s, \mathbf{v}_s$ 是dense层的参数。

（4）attention pooling：利用attention机制来学习不同信息的权重。标题、正文、一级分类和二级分类的attention权重分别为 $\alpha_t, \alpha_b, \alpha_c, \alpha_{sc}$ ， $\alpha_t$ 计算如下（其余同理）：
$\alpha_t = \mathbf{q}^T_v tanh(\mathbf{U}_v \times \mathbf{r}^t + \mathbf{u}_v) \\ \alpha_t = \frac{exp(a_t)}{exp(a_t) + exp(a_b) + exp(a_c) + exp(a_{sc})}$
其中， $\mathbf{U}_v$ 和 $\mathbf{u}_v$ 是投影参数， $\mathbf{q}_v$ 是attention中的query向量。

news encoder最终的输出是加权的新闻表示形式： $\mathbf{r} = \alpha_c \mathbf{r}^c + \alpha_{sc} \mathbf{r}^{sc} + \alpha_t \mathbf{r}^t + \alpha_b \mathbf{r}^b$

2、User Encoder

这一部分的目的是从用户历史浏览记录中学习用户的表示。user encoder模块采用attention机制来学习各个浏览记录的权重。
用户浏览过的第i个新闻的attention权重是 $\alpha^n_i$ ，计算如下：
$a^n_i = \mathbf{q}^T_n tanh(\mathbf{W}_n \times \mathbf{r}_i + \mathbf{b}_n) \\ \alpha^n_i = \frac{exp(a^n_i)}{\sum^N_{j=1}exp(a^n_j)}$
其中， $\mathbf{q}_n, \mathbf{W}_n, \mathbf{b}_n$ 是attention机制的参数。
最终，用户的表示为加权和： $\mathbf{u} = \sum^N_{i=1} \alpha^n_i \mathbf{r}_i$ ，N是浏览过的新闻总数。

3、Click Predictor

候选新闻 $D^c$ 的表示为 $\mathbf{r}_c$ ，用户u的表示为u。点击概率 $\hat{y}$ 通过候选新闻和用户表示的内积得到： $\hat{y} = \mathbf{u}^T\mathbf{r}_c$ 。

4、Model Training

采用negative samlping技术来进行模型训练。用户浏览过的新闻作为正样本，在同一个session中随机选择K条用户没有点击过的新闻作为负样本，我们可以获得正样本的概率 $\hat{y}^+$ 和K个负样本的概率 $[\hat{y}^-_1,\hat{y}^-_2,...,\hat{y}^-_K]$ 。推荐问题可以转变为K+1-分类问题，使用softmax对这些概率进行正则化得到正样本的后验点击概率：
$p_i = \frac{exp(\hat{y}^+_i)}{exp(\hat{y}^+_i) + \sum^K_{j=1}exp(\hat{y}^-_{i,j})}$
其中， $\hat{y}^+$ 是第i个正样本的点击概率分数， $\hat{y}^-_{i,j}$ 是同第i个正样本处于相同session的第j个负样本的点击概率分数。
最终得到损失函数为：
$L = - \sum_{i \in S} log(p_i)$
其中，S是正训练样本的集合。

四、实验结果

推荐系统论文笔记---Neural News Recommendation with Attentive Multi-View Learning