【发布时间】:2018-10-03 23:56:31
【问题描述】:
我正在尝试按类别对 10 个最常用的词进行分组。我已经看过this 的回答,但我不能完全修改它以获得我想要的输出。
category | sentence
A cat runs over big dog
A dog runs over big cat
B random sentences include words
C including this one
所需的输出:
category | word/frequency
A runs, 2
cat: 2
dog: 2
over: 2
big: 2
B random: 1
C including: 1
由于我的数据框非常大,我只想获得前 10 个最常出现的单词。我也看过这个answer
df.groupby('subreddit').agg(lambda x: nltk.FreqDist([w for wordlist in x for w in wordlist]))
但此方法也返回字母计数。
【问题讨论】: