【发布时间】:2021-01-07 04:20:48
【问题描述】:
我有一个数据集,其中包含带有发布日期 (YYYY-MM-DD)、访问次数的 URL。我想计算一整年的访问基准(平均值)。页面在不同的日期发布.....e。 G。与 3 月发布的第 2 页(11,000 次)相比,8 月发布的第 1 页(10,000 次访问)的权重/贡献将更多。
这是我的数据集:
第一步:
首先我想在我的数据集中添加一个列(即时间范围),它可以计算从发布日期开始的时间范围。例如:如果页面发布于 2019-12-10,它可以给出从我今天的日期开始的时间范围/持续时间,预计 o/p:(2019 年 12 月,9 个月)。即(页面发布的月份,从今天算起的总月数)
第二步:
我想根据步骤 1 中计算的时间范围列标准化/重新调整我的数据(访问)。
如何计算平均值/基准。
【问题讨论】:
-
第二步,你想要一个表格,显示一年中的平均访问量?
-
是的,我想根据您在步骤 1 中计算的月份计算平均值。在运行代码时,我在步骤 1 中也遇到错误:- 文件“
”,第 14 行,在 normalize_date date_obj = datetime.strptime(date,"%Y-%m-%d % H:%M:%S") # get datetime object TypeError: strptime() argument 1 must be str, not numpy.datetime64 -
那么每个月,可能有多次访问记录?
-
我修改答案支持平均!
-
我收到此错误消息.....文件“
”,第 3 行,在 normalize_date date_obj = datetime.strptime(date,"%Y- %m-%d %H:%M:%S") # get datetime object TypeError: strptime() argument 1 must be str, not numpy.datetime64
标签: python pandas normalization sklearn-pandas feature-scaling