【发布时间】:2019-10-01 08:42:41
【问题描述】:
我最近刚开始学习 python(已经学习了 6 周),我不知道如何解决这个任务。对于这项任务,我们从 Twitter 获得了一个 excel 数据集,并应该“抓取数据”。
我应该在你拥有的数据集中找到唯一的用户名和他们在 Twitter 上发推文的次数(不包括转发和回复)。 并找出推文数量最多的前 10 位用户(不包括转发和回复)。
我一直在使用 pandas,但找不到正确的代码字符串来完成我需要的操作。
我能够使用此代码过滤所有仅发送“推文”的用户。这似乎是我唯一的突破。
df.loc[df['Relationship'] == "Tweet"]
在数据集中有一列包含用户名“Users1”(即他们的 Twitter 句柄)和一个名为“Relationship”的列(即提及、回复、推文)。这是我一直在使用的两个专栏。
很遗憾,我有点不知所措,需要任何可能的帮助。
谢谢
编辑:
print(df.User1.value_counts(['Relationship'] == "Tweet"))
能够使用此代码取得一些进展^
这确实是我发现的唯一半有用的代码字符串。我已经吐了一个多小时了。
我附上了部分数据的图片。Portion of data
【问题讨论】:
-
提示:试试
groupby方法 -
请编辑您的问题,包括您为超越此范围所做的任何尝试,以及他们出了什么问题。另外,请附上您的数据集的摘录。
-
@pydude 进行了编辑。添加了我的数据集的截图。谢谢
-
@Nikaidoh 我试过了,还是没有成功