【发布时间】:2019-04-03 02:16:49
【问题描述】:
我有一个社交网络中的用户帖子数据库,我使用 Pandas DataFrame 计算了每个用户每月的帖子数,从而为每个用户生成了一个包含月份和帖子数的 2 列表。我想计算不同用户之间的每月计数相关性,知道每两个用户之间的每月时间线是不同的(有一些相交的月份)
这是创建每月时间表(agg)的代码
# Create an empty dataframe
df = pd.DataFrame()
# Create a column from the datetime variable
df['datetime'] = date_list
# Convert that column into a datetime datatype
df['datetime'] = pd.to_datetime(df['datetime'])
# Set the datetime column as the index
df['score'] = count
df.index = df['datetime']
# this is the table containing posts count for each month
agg = df['score'].resample('M').sum().to_frame()
所以基本上我必须对两个“agg”变量应用相关函数,但找不到直观的方法。 这是属于两个不同用户的 agg 变量的两个示例:
第一栏:Month,第二栏:Number of posts。
User A
2018-04-30 39
2018-05-31 41
2018-06-30 19
2018-07-31 46
2018-08-31 61
2018-09-30 57
2018-10-31 33
2018-11-30 18
User B:
2017-11-30 0
2017-12-31 3
2018-01-31 0
2018-02-28 0
2018-03-31 22
2018-04-30 3
2018-05-31 11
【问题讨论】:
-
请使用提供的格式来编写问题中的代码。
标签: python pandas dataframe timeline