【发布时间】:2019-03-25 10:09:04
【问题描述】:
我有以下代码,当前将“令牌”中的所有单词与“df”中的每个文档进行比较。有什么方法可以将预定义的单词列表与文档而不是“令牌”进行比较。
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(norm=None)
list_contents =[]
for index, row in df.iterrows():
list_contents.append(' '.join(row.Tokens))
# list_contents = df.Content.values
tfidf_matrix = tfidf_vectorizer.fit_transform(list_contents)
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(),columns= [tfidf_vectorizer.get_feature_names()])
df_tfidf.head(10)
感谢任何帮助。谢谢!
【问题讨论】:
-
嗨@stackyflowy123,欢迎来到!感谢您将一些代码放在这里。您能否举个例子说明您正在尝试做什么以及它是如何不起作用的?
标签: python pandas text tf-idf tfidfvectorizer