【发布时间】:2020-02-01 20:41:32
【问题描述】:
由于数据量大,我正在尝试使用 sklearn TfidfVectorizer 查找余弦相似度,我不断收到内存错误
tf = TfidfVectorizer(analyzer='word', ngram_range=(1, 3),max_df=1.0, min_df=0, stop_words='english')
tfidf_matrix = tf.fit_transform(ds['description'])
> cosine_similarities = linear_kernel(tfidf_matrix, tfidf_matrix) <-- Memory Error
请帮我解决错误。非常感谢
【问题讨论】:
-
你知道什么是内存错误吗?
标签: machine-learning scikit-learn cosine-similarity tfidfvectorizer