【发布时间】:2016-10-07 02:43:54
【问题描述】:
我在一堆消息上利用了词袋模型,如下所示:
bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message'])
B4 = bow_transformer.transform([msg4])
print B4
print bow_transformer.get_feature_names()[6736]
print bow_transformer.get_feature_names()[8013]
(0, 1158) 1
(0, 1899) 1
(0, 2897) 1
(0, 2927) 1
(0, 第4021章)1
(0, 6736) 2
(0, 7111) 1
(0, 7698) 1
(0, 8013) 2说
你
我需要的是给像 "say" 这样的词提取其 id "6736" (反之亦然 bow_transformer.get_feature_names()[6736] 正在做的事情)?!
【问题讨论】:
-
你不能只使用
transform方法吗?即bow_transformer.transform(['say']) -
它给了我类似的东西:(0, 6736) 1 但我只需要 6736
标签: python-2.7 machine-learning scikit-learn