【发布时间】:2020-11-24 21:51:47
【问题描述】:
小组的一个问题 - 如果我们推出一个新产品功能(比如说应用上的新过滤器),在发布前我们看到转化率下降,但 2 个月后我们决定实际测试该功能和结果的出现是因为现有变体(在发布之前)实际上比推出更糟糕 - 您在测试中经历了多少?要总结的问题是,您多久观察一次用户习惯了一项新功能(即使不是最理想的),您如何量化其影响?
【问题讨论】:
标签: testing statistics product ab-testing
小组的一个问题 - 如果我们推出一个新产品功能(比如说应用上的新过滤器),在发布前我们看到转化率下降,但 2 个月后我们决定实际测试该功能和结果的出现是因为现有变体(在发布之前)实际上比推出更糟糕 - 您在测试中经历了多少?要总结的问题是,您多久观察一次用户习惯了一项新功能(即使不是最理想的),您如何量化其影响?
【问题讨论】:
标签: testing statistics product ab-testing
由于您所描述的,难以准确量化没有新奇效应的稳定剩余提升。习惯随着时间的推移而形成,在 UI 范例中,也有惯性需要处理。解决此问题的一种方法是创建长期坚持,然后将坚持的人群与其他人群的影响进行比较。也就是说,我会建议将这些保留保持在很小的范围内,并且不要将此类保留维持的时间过长。
还有在功能发布后关闭功能的回测。对用户来说绝对是一个糟糕的体验,但如果你绝对需要,你可以用它来衡量现有功能的影响。
在所有这些情况下,我建议使用工具来帮助进行这些测量 - 像 Statsig 这样的工具可能会有所帮助。
在下图中,被拒绝的人在多个指标上表现不佳,这意味着被拒绝的功能具有很强的积极影响。
免责声明:我在 Statsig 工作
【讨论】: