推荐系统相关算法

摘要：

热门推荐：

　　热门推荐本质上是一个排行榜，可能会考虑到时间衰减，商品的销量/流行度，好评，差评等因素，对于新用户引导有一定的作用，但是并不是一个个性化的算法

　　以下是一些热门排名的公式实现：

 1 def hacker_news_rank(  ):
 2     #参考自http://www.oschina.net/news/43456/how-hacker-news-ranking-algorithm-works
 3     tr = pd.read_csv('../data/train.csv')
 4     item = pd.read_csv('../data/news_info.csv')
 5     item_action_cnt = tr[['user_id','item_id','action_type']].drop_duplicates().groupby(['item_id'],as_index=False).count()[['item_id','action_type']]
 6     item_action_cnt.columns = ['item_id','action_cnt']
 7     item_pop = pd.merge(item[['item_id', 'timestamp']], tr, on='item_id')
 8     item_pop = pd.merge( item_action_cnt,item_pop,on='item_id' )
 9     item_pop['pop'] = item_pop['action_cnt'] / pow( ( item_pop['action_time'] - item_pop['timestamp'] )/3600 ,5.8 ) #5.8等于10.8，优于1.8,2.8
10     item_pop = item_pop[['item_id','pop']].groupby( ['item_id'],as_index=False ).sum()
11     return item_pop

1 def top_pop(  ):
2     #参考自《推荐系统实践》p130
3     tr = pd.read_csv('../data/train.csv')
4     tr['pop'] = tr['action_time'].apply(lambda t: 1 / (1.0 + 0.2 * (1487433599 - t))) #0.2优于0.1和0.5
5     item_pop = tr[['item_id', 'pop']].groupby(['item_id'], as_index=False).sum()
6     return item_pop

协同过滤算法

　　协同过滤算法大概可以分成如下几步：

　　　1.构建用户评分矩阵，每一行是用户，物品，评分的三元组

　　　2.构建用户/物品的倒排索引

　　　3.计算物品/用户的相似度，比如共现相似度，cosine相似度等

　　　4.预测用户对相似物品的评分，选取top k 进行推荐

以下是一个python版的简单实现：

 1 #可以优化空间，存储成三角矩阵
 2 def get_concur_mat(  ):
 3     path = "../cache/get_concur_mat.pkl"
 4     if os.path.exists(path):
 5         sim_mat = pickle.load(open(path, "rb"))
 6     else:
 7         rat_mat = get_rating_matrix() //用户评分矩阵
 8         sim_mat = pd.DataFrame()
 9         item1_list = []
10         item2_list = []
11         item1_item2_score = []
12         user_groups = rat_mat.groupby( ['user_id'] ) //物品的倒排索引
13         for name,group in user_groups:
14             for pair in permutations(list(group[['item_id','weight']].values), 2):
15                 item1_list.append( pair[0][0] )
16                 item2_list.append( pair[1][0] )
17                 item1_item2_score.append( pair[0][1]*pair[1][1] )
18         sim_mat['item1'] = item1_list
19         sim_mat['item2'] = item2_list
20         sim_mat['score'] = item1_item2_score
21         sim_mat = sim_mat.groupby(['item1', 'item2'], as_index=False).sum()
22         pickle.dump(sim_mat, open(path, 'wb'), True)  # dump 时如果指定了 protocol 为 True，压缩过后的文件的大小只有原来的文件的 30%
23     return sim_mat
24 
25 def get_cosine_sim(  ):
26     path = "../cache/cosine_sim_mat.pkl"
27     if os.path.exists(path):
28         sim_mat = pickle.load(open(path, "rb"))
29     else:
30         concur_mat = get_concur_mat()
31         print('----------------load concur_mat--------------------')
32         rat_mat = get_rating_matrix()
33         print('----------------load rat_mat--------------------')
34         rat_mat['score2'] = rat_mat[['weight']] *  rat_mat[['weight']]
35         item_sum_s2_vector = rat_mat[['item_id','score2']].groupby(['item_id'],as_index=False).sum()
36         item_sum_s2_vector.index = item_sum_s2_vector['item_id']
37         item_sum_s2_dict = item_sum_s2_vector['score2'].to_dict()
38         concur_mat['item1_sum_s2'] = concur_mat['item1'].apply( lambda p:item_sum_s2_dict[p] )
39         concur_mat['item2_sum_s2'] = concur_mat['item2'].apply(lambda p: item_sum_s2_dict[p])
40         concur_mat['sim'] = concur_mat['score'] / (concur_mat['item1_sum_s2'].apply(math.sqrt) * concur_mat['item2_sum_s2'].apply(math.sqrt))
41         print('------------      取前20个最相似的item    ------------------')
42         sim_mat = pd.DataFrame()
43         for item1,group in concur_mat.groupby( ['item1'],as_index=False ):
44             df = group.sort_values( ['sim'],ascending=False ).head( 20 )
45             df['item1'] = [item1] * len(df)
46             sim_mat = sim_mat.append( df )
47             # print('---------------------------')
48         sim_mat = sim_mat[['item1', 'item2', 'sim']]
49         pickle.dump(sim_mat, open(path, 'wb'), True)
50     return sim_mat

View Code