【发布时间】:2021-06-26 14:45:36
【问题描述】:
我想要一个自定义的CountVectorizer 词汇表来记录表达式的存在或不存在。我希望它检测单词的组合,而不是单词。
根据我的自定义词汇,我希望sklearn 检测“大狗”。
from sklearn.feature_extraction.text import CountVectorizer
cvec = CountVectorizer(vocabulary=['big dog', 'cat'])
cvec.fit_transform(['The big dog and the cat']).toarray()
array([[0, 1]], dtype=int64)
它似乎没有检测到我正在寻找的单词组合“big dog”。有没有办法做到这一点,或者这个功能只能检测单词?
【问题讨论】:
标签: python numpy scikit-learn