【发布时间】:2015-07-20 21:05:53
【问题描述】:
我想写一个程序来为用户寻找新的音乐,只有来自用户计算机的音乐。
对于用户计算机上的每个艺术家,我将使用他的歌曲中的词创建新列表。 (当然要删除停用词)
例如:{'Placebo': {'secret': 11, 'unicorn': 8, 'helmet': 6}} 等字在这里
然后我想使用 DictVectorizer 将我的列表转换为 Numpy 数组或 scipy.sparse 矩阵,以便与 scikit-learn 估计器一起使用。
例如上面它将是 - array([[ 11., 8., 6.])
因此,对于用户计算机上的每个艺术家,我都有列表。
此外,我有一个包含 1000 位艺术家的数据库,对于每个艺术家,我也有这种类型的列表。
现在我不知道找到与用户所拥有的艺术家相似的艺术家的最佳方法是什么。
也许 scikit-learn 中有一些内置函数?
【问题讨论】:
标签: python python-3.x scikit-learn