【发布时间】:2019-02-12 11:44:32
【问题描述】:
我有一个超过 50 行的大型数据框。对于每一行,我都有一列“标记”,其中包含大量文本标记。我使用了一个 for 循环和频率分布来查找“令牌”列的每一行中的前 10 个令牌。
我正在尝试向我的数据框添加一个名为“top10”的新列,这样对于每一行,前 10 个标记都包含在“top10”列中。
这是我用来查找每行前 10 个标记的当前代码。
for i in range(len(df)):
tokens = df.iloc[i]['tokens']
frequency = nltk.FreqDist(tokens)
print(" ", word_frequency.most_common(10))
我的数据框示例:
id location about age tokens
1 usa ... 20 ['jim','hi','hello'......]
...
...
40 uk ... 50 ['bobby','hi','hey'......]
预期输出:
id location about age tokens top10
1 usa ... 20 ['jim','hi','hello'......] ['hi', 'paddy'....]
...
...
40 uk ... 50 ['bobby','hi','hey'......] ['john', 'python'..]
top10 列应按降序显示单词。
感谢您的帮助,谢谢!
【问题讨论】: