利用用户标签数据构建推荐系统

标签简介

标签是一种无层次结构的、用来描述信息的关键词。

基于标签的推荐系统

简单算法

计算用户u对物品i的兴趣公式：

$p(u, i)=\sum_{b} n_{u, b} n_{b, i}$

基于上述公式进行推荐。

改进

直觉一：简单公式倾向于给热门物品较高权重。

使用TF-IDF思想对公式进行改造：

TagBasedTFIDF：

$p(u, i)=\sum_{b} \frac{n_{u, b}}{\log \left(1+n_{b}^{(u)}\right)} n_{b, i}$

TagBasedTFIDF++：

$p(u, i)=\sum_{b} \frac{n_{u, b}}{\log \left(1+n_{b}^{(u)}\right)} \frac{n_{b, i}}{\log \left(1+n_{i}^{(u)}\right)}$

直觉二：新用户和新物品的标签很少

使用话题模型进行标签拓展，这里简单介绍一种基于邻域的方法，使用如下余弦标签相似度计算公式：

$\operatorname{sim}\left(b, b^{\prime}\right)=\frac{\sum_{i \in N(b) \cap N\left(b^{\prime}\right)} n_{b, i} n_{b^{\prime}, i}}{\sqrt{\sum_{i \in N(b)} n_{b, i}^{2} \sum_{i \in N\left(b^{\prime}\right)} n_{b^{\prime}, i}^{2}}}$

直觉三：标签文本质量低

标签清理方法：去除停用词、去除同词根近义词和分隔符近义词。

基于图的标签推荐算法

首先就是构建图的方式不同会导致不同的结果。

可以用图模型解释前面的简单算法，即对图进行建模之后，使用PersonalRank算法，令K=1，给出边权
重定义，等价于最上面提出的简单算法。

利用用户标签数据构建推荐系统

推荐标签

好处：方便用户输入、减少同近义词。

四种方法：PopularTags、ItemPopularTags、UserPopularTags、HybridPopularTags。（看词知意）

基于图的标签推荐算法（PersonalRank）