【发布时间】:2017-07-21 06:15:55
【问题描述】:
所以我有一个包含许多列的大型数据框。假设我感兴趣的两个主要列是消息和名称。每条消息都类似于个人身份,并附有此人的姓名。假设我有一个相当大的情感/感觉词库,但浓缩版可能看起来像 ['sad'、'happy'、'relieved'、'annoyed'、'angry'、'ecstatic'、'proud ', '失望的']。对于每个名称(并且名称可以重复,因为它们可能有多个消息),我想跟踪他们使用的情感词及其伴随的计数。例如(因为我有一个非常大的数据集,所以我做了这个):
Message Name
I am really happy with my progress. Alice
I was annoyed by his inconsideration. John
I felt proud after seeing her performance. Lisa
I am ecstatic after hearing the good news. Alice
I felt disappointed by her dishonesty Lisa
如果我想要一些基本上可以告诉我以下内容的东西(我不一定关心格式,只要它是干净的): {Alice: happy:1, ecstatic: 1;约翰:生气:1;丽莎:骄傲:1,失望:1}。
最好/最简单的方法是什么?字典是最好的方法吗?其次(这是一个额外的相关问题),在上面计算之后,如果我想为每个名字找到最常用的情感词怎么办。在这个例子中,所有的东西都几乎是 1,但想象一下计数是不一样的。
【问题讨论】:
-
如果单行有两次
message,你要算一还是二? -
例如,单行的消息有两次“快乐”?我真的没想到,但是两次就好了。
标签: python pandas dictionary dataframe