【发布时间】:2019-01-08 08:43:51
【问题描述】:
skikit-learn 的 TfidfVectorizer 正确地将具有相同字典值的词汇术语映射到相同的索引,但是,它在输出中创建的列与词汇字典中的条目一样多。有没有比在转换后去掉多余的列更好的方法来解决这个问题?也就是说,在下面的示例中,我不想要第三列,因为它总是为零。
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer=TfidfVectorizer(vocabulary={'surgery':0, 'sx':0, 'radiology':1})
text=['i had surgery','patient sx went well','radiology department']
vectorizer.fit(text)
vectorizer.transform(text).todense()
>>> matrix([[ 1., 0., 0.],
[ 1., 0., 0.],
[ 0., 1., 0.]])
【问题讨论】:
标签: python scikit-learn