【发布时间】:2023-03-24 16:30:02
【问题描述】:
我的数据集包含 8 列,每列 1482531 行
我尝试通过
制作基于内容的推荐系统
在python中使用linear_kernel进行余弦相似度
但半小时后直到我错误记忆
这是因为数据集很大吗,如果这是他们解决这个问题的解决方案
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
from sklearn.model_selection import train_test_split
dataset = pd.read_csv('C:/data2/train.tsv',sep='\t', low_memory=False)
tf = TfidfVectorizer(analyzer='word', ngram_range=(1, 3), min_df=0, stop_words='english')
dataset['item_description'] = dataset['item_description'].fillna('')
tfidf_matrix.shape
((1482535, 13831759))
cosine_similarities = linear_kernel(tfidf_matrix, tfidf_matrix)
【问题讨论】:
-
你找到解决办法了吗?
-
有什么解决办法吗?
标签: python-3.x python-2.7 content-based-retrieval