【发布时间】:2018-04-13 23:45:37
【问题描述】:
我正在尝试在我的 pandas 列 'Subject' 中计算一条记录出现频率大于 3 的次数 - 按日期分组。
目前此代码有效,但它适用于整个数据框。
main_subj = df['Subject'].value_counts(
[df['Subject'].value_counts()>3] count_main_subj = main_subj.shape[0]
我想按'date' 对数据进行分组 - 以查看每天有多少条记录的频率高于 3。
我的数据框如下所示:
Subject Verb Object ID Date
trump got jobs 820108 20170803
voters begin to 182912 20170803
steve miss colleague 980828 20170804
例如,如果一天有 10 条记录: 5与主题王牌 3 与主题克林顿 2 与主题 obama
结果将是 2 - 出现超过 3 次的主题数。
谢谢!
【问题讨论】: