【发布时间】:2019-07-09 21:35:49
【问题描述】:
我正在尝试将 countvectorizer 应用于包含二元组的数据帧,以将其转换为频率矩阵,显示每个二元组在每一行中出现的次数,但我不断收到错误消息。
这是我尝试使用的
cereal['bigrams'].head()
0 [(best, thing), (thing, I), (I, have),....
1 [(eat, it), (it, every), (every, morning),...
2 [(every, morning), (morning, my), (my, brother),...
3 [(I, have), (five, cartons), (cartons, lying),...
.........
bow = CountVectorizer(max_features=5000, ngram_range=(2,2))
train_bow = bow.fit_transform(cereal['bigrams'])
train_bow
Expected results
(best,thing) (thing, I) (I, have) (eat,it) (every,morning)....
0 1 1 1 0 0
1 0 0 0 1 1
2 0 0 0 0 1
3 0 0 1 0 0
....
【问题讨论】:
-
这是您拥有的数据类型以及您期望的结果的一个很好的例子 - 但如果您还包括您遇到的错误,那就更好了。
标签: nltk n-gram sklearn-pandas countvectorizer