【发布时间】:2016-11-16 23:00:16
【问题描述】:
我有一个三列'customer'、'item_id'、'ct_id' 的表,但行数约为 300 万。唯一的 'item_id' 有 20350 个条目,而 'customer' 有 2485 个条目。在 20350 种商品中,每位顾客可以购买任意数量的商品
目标是建立一个基于表格的推荐系统。首先,我要构造一个 2485x20350 的矩阵,其行是“客户”,列是“项目 ID”。 每个元素是表中 'customer' & 'item_id' 对的出现次数。那么我可以根据这个客户/商品矩阵构建相似度矩阵。
我尝试在 pandas 中使用 pivot_table,如下所示: d_pivt = dt.pivot_table(index=['cstm_num','it_num'], aggfunc='count'),
我只是想知道,有了这些信息,构建我想要的矩阵的最有效方法是什么。
谢谢,
【问题讨论】:
-
所以您尝试使用
pivot_table,您的尝试出了什么问题?它是否引发了错误,是不是太慢了?请详细说明为什么它不适合您。
标签: python pandas sparse-matrix