【发布时间】:2019-07-27 07:49:00
【问题描述】:
我有两列。一个是动物,另一个是它们的描述。我想在 Python 中找到与每种动物相关的最常见单词。另外,我想添加一组单词,包括英语停用词和二元组和三元组。或许能找到前 20 个单词/短语。
dataset = pd.read_sql( q , dlconn )
x=dataset['Animal']
y= dataset[Description]
count_vect = CountVectorizer(stop_words = esw, ngram_range=(1, 3))
【问题讨论】:
-
你能提供样本数据吗?一种特定的动物会出现在多行还是只有一个?
-
x: [狗, 狗, 猫, 猫, 猫, 兔子] , y: [woof hairy, hairy big, meow, meow meowwhisers,胡萝卜]