标签简介
标签是一种无层次结构的、用来描述信息的关键词。
基于标签的推荐系统
简单算法
计算用户u对物品i的兴趣公式:
p(u,i)=b∑nu,bnb,i
基于上述公式进行推荐。
改进
- 直觉一:简单公式倾向于给热门物品较高权重。
使用TF-IDF思想对公式进行改造:
TagBasedTFIDF:
p(u,i)=b∑log(1+nb(u))nu,bnb,i
TagBasedTFIDF++:
p(u,i)=b∑log(1+nb(u))nu,blog(1+ni(u))nb,i
- 直觉二:新用户和新物品的标签很少
使用话题模型进行标签拓展,这里简单介绍一种基于邻域的方法,使用如下余弦标签相似度计算公式:
sim(b,b′)=∑i∈N(b)nb,i2∑i∈N(b′)nb′,i2∑i∈N(b)∩N(b′)nb,inb′,i
- 直觉三:标签文本质量低
标签清理方法:去除停用词、去除同词根近义词和分隔符近义词。
基于图的标签推荐算法
首先就是构建图的方式不同会导致不同的结果。
可以用图模型解释前面的简单算法,即对图进行建模之后,使用PersonalRank算法,令K=1,给出边权
重定义,等价于最上面提出的简单算法。

推荐标签
好处:方便用户输入、减少同近义词。
四种方法:PopularTags、ItemPopularTags、UserPopularTags、HybridPopularTags。(看词知意)
基于图的标签推荐算法(PersonalRank)