DEEP LEARNING WITH LOGGED BANDIT FEEDBACK 笔记

Another url：https://bulihanjie.github.io/2019/04/14/DEEP-LEARNING-WITH-LOGGED-BANDIT-FEEDBACK-笔记/#more

摘要

论文中提出BanditNet模型，能够利用bandit feedback数据，即实体标签服从某个分布的数据，能够有效地使用大量的数据训练已有的模型使之达到很好的效果。并且模型只需要较少的代价对模型重训练，能够达到全部数据的效果。论文中采用图像是别的数据验证模型效果，并不是传统意义上的有标签图像，其中图像的标签可能会发生变化。

参考资料

Joachims T, Swaminathan A, de Rijke M. Deep learning with logged bandit feedback[J]. 2018.
Swaminathan A, Joachims T. The self-normalized estimator for counterfactual learning[C]//advances in neural information processing systems. 2015: 3231-3239.

介绍

在推荐系统中，后台中的log数据通常能够反映系统的性能以及用户的浏览经历，如广告投放系统中包括广告投放数据和用户是否点击数据。但每一个数据是通过系统产生展示实体给用户，用户对实体的行为反馈产生了数据。其中系统的推荐行为只是所有可能行为中的子集，所以得到用户反馈是由推荐系统所直接影响，这叫做bandit feedback。由和传统的有监督学习不同的在于我们不知道所有行为的真实反馈，即用户在其它实体上的行为反馈。论文中的目的是在bandit feedback数据上进行训练，即使不是在全部数据上进行训练，也能够得到很好的效果。

假设输入 $x \in \mathcal{X}$ ，服从一个未知的分布 $\operatorname{Pr}(\mathcal{X})$ 。输出假设为 $y \in \mathcal{Y}$ ，其中 $y$ 服从条件概率分布 $\pi_{w}(Y | x)$ 。输入和动作之间也会有一个得分反馈 $\delta(x, y)$ 。通俗来讲，在推荐系统中， $x$ 可以表示为用户和浏览网页， $y$ 表示展示的广告， $\delta(x, y)$ 当用户点击广告时为1否则为0， $\pi_{w}(Y | x)$ 即推荐系统基于用户和网页信息计算得出的广告推荐的概率分布。简单的，每个动作 $y$ 的推荐概率可以用softmax的形式表达：
$\pi_{w}(y | x)=\frac{\exp \left(f_{w}(x, y)\right)}{\sum_{y^{\prime} \in \mathcal{Y}} \exp \left(f_{w}\left(x, y^{\prime}\right)\right)}$
因此一般情况下，系统的学习目标在于找到最好的策略 $\pi_{w}$ 最大化收益，即最大化点击率等：
$R\left(\pi_{w}\right)=\underset{x \sim \operatorname{Pr}(X)}{\mathbb{E}}\underset{ y \sim \pi_{w}(Y | x)}{\mathbb{E}}[\delta(x, y)]$
但训练的数据都是经过原先的推荐策略 $\pi_{0}$ 采样得到，即 $y \sim\pi_{0}$ ，由于 $\pi_{w} \neq \pi_{0}$ ，不能直接代入数据优化 $R\left(\pi_{w}\right)$ 。
重新修正 $y$ 的分布，可以得到以下的目标期望：
$R\left(\pi_{w}\right)=\underset{x \sim \operatorname{Pr}(X)}{\mathbb{E}}\underset{ y \sim \pi_{w}(Y | x)}{\mathbb{E}}[\delta(x, y)]=\underset{x \sim \operatorname{Pr}(X)}{\mathbb{E}}\underset{ y \sim \pi_{0}(Y | x)}{\mathbb{E}}\left[\delta(x, y)\frac{\pi_{w}(y | x)}{\pi_{0}(y | x)}\right]$
通过历史推荐策略 $\pi_{0}$ 产生的数据，优化目标函数：
$\hat R_{I P S}\left(\pi_{w}\right)=\frac{1}{n} \sum_{i=1}^{n} \delta_{i} \frac{\pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)}$
但公式中存在着倾向性过拟合（propensity overfittin）的问题。在 $R\left(\pi_{w}\right)$ 中发生一个偏移，和得分反馈 $\delta(x, y)$ 发生偏移在期望计算中是结果是相同的，使得期望发生线性偏移。但事实上， $\hat R_{I P S}$ 的计算和期望的不一样：
$c+\min_{w} \frac{1}{n} \sum_{i=1}^{n} \delta_{i} \frac{\pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)} \neq \min_{w} \frac{1}{n} \sum_{i=1}^{n}\left(\delta_{i}+c\right) \frac{\pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)}$
算法优化的过程中更关注低概率的 $\pi_{0}\left(y_{i} | x_{i}\right)$ 。所以优化目标会收到历史推荐策略的影响，而不仅仅是实际动作。
采用self-normalized IPS estimator的方式，可以将目标函数转化为：
$\hat R_{S N I P S}\left(\pi_{w}\right)=\frac{\frac{1}{n} \sum_{i=1}^{n} \delta_{i} \frac{\pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)}}{\frac{1}{n} \sum_{i=1}^{n} \frac{\pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)}}$
这里相当于对已有的进行归一化权重，和之前的相比效果更精确。并且容易得知当发生偏移 $\delta_{i}+c$ 时， $\hat R_{S N I P S}\left(\pi_{w}\right)$ 同样也会有偏移 $c$ ，因此目标函数和反馈之间是等变化的。
记 $S:=\quad \frac{1}{n} \sum_{i=1}^{n} \frac{\pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)}$ ，当数据样本趋向于无穷大时，容易得知 $S$ 会趋向 $1$ ：
$\mathbb{E}[S]=\frac{1}{n} \sum_{i=1}^{n} \int \frac{\pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)} \pi_{0}\left(y_{i} | x_{i}\right) \operatorname{Pr}\left(x_{i}\right) d y_{i} d x_{i}=\frac{1}{n} \sum_{i=1}^{n} \int 1 \operatorname{Pr}\left(x_{i}\right) d x_{i}=1$
假设 $S=1$ 代入,并且采用拉普拉斯乘子加入限制的条件：
$L(w, \lambda)=\frac{1}{n} \sum_{i=1}^{n} \frac{\delta_{i} \pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)}-\lambda\left[\frac{1}{n}\left(\sum_{i=1}^{n} \frac{\pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)}\right)-S_{j}\right]=\frac{1}{n} \sum_{i=1}^{n} \frac{\left(\delta_{i}-\lambda\right) \pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)}+\lambda S_{j}$
如公式所示， $S_j$ 是枚举的 $\quad \frac{1}{n} \sum_{i=1}^{n} \frac{\pi_{w}\left(y_{i} | x_{i}\right)}{\pi_{0}\left(y_{i} | x_{i}\right)}$ 大小，通过超参 $\lambda$ 控制权重。事实上由于 $S$ 趋向1，程序中的实习是设定 $S_j=1$ ，所以最后目标函数只是得分反馈减去超参 $\lambda$ 。
实验结果中表明，利用bandit feedback的数据进行训练也能得到和全部数据一起训练的效果。
DEEP LEARNING WITH LOGGED BANDIT FEEDBACK 笔记

感想

这篇论文中，其实很多细节我都没有弄的很清楚。但是能够帮我去理解，推荐系统如何利用新的数据进行增量学习，有比较好的启发。