为使用聚类准备数据答案

【问题标题】：Prepping Data For Usage Clustering为使用聚类准备数据
【发布时间】：2016-08-22 03:41:58
【问题描述】：

数据集：我得到了单个客户每天使用产品的分钟数，我试图对这些数据进行聚类以找到常见的使用模式。

我的问题：我如何格式化数据，例如，一年使用率高的高级用户看起来与之前只能使用该设备一个月的不同高级用户相同我结束了数据收集？

到目前为止，我已将每个客户转换为一个数组，其中每个单元格是当天使用的分钟数。该数组从用户第一次使用产品时开始，到用户第一年使用后结束。对于聚类模型，单元格中的所有条目必须是双精度值（例如使用 200.0 分钟）。我考虑过将数据收集最后一天之后的所有单元格/天数设置为 -1.0 或 NULL。这些都是有效的方法吗？如果不是，你有什么建议？

【问题讨论】：

请不要交叉发帖：datascience.stackexchange.com/q/11456/924
数据科学社区要小得多，即使他们在这方面更有资格，我也没有预料到会有任何及时的回应。为什么将同一个问题发布到两个不同的社区是不合适的？

标签： machine-learning cluster-analysis data-science data-cleaning bigdata

【解决方案1】：

对于您想要两个用户的问题（一个在一年内每天都使用该产品，而另一个在一个月内经常使用该产品），创建一个新条目，其值为：

avg_usage per time_bin

time_bin 可以是一个月、一天或另一个最适合您需要的时间段。这样，一个使用产品的用户，比如说一年内每天 200 分钟，将获得：

200 * 30 * 12 / 12 = 6000 minutes per month

上个月才加入的其他用户也将获得，使用完全相同的方式将获得：

200 * 30 * 1 / 1 = 6000 minutes per month.

这样一来，什么时候开始使用都无所谓，重要的是使用率。

您可能会考虑到一件重要的事情，即产品可能会被遗忘一段时间。例如，一台计算机，而我正在休假。那些日子我没有使用我的电脑，没有（也许）影响我对这个产品的一般使用。因此，根据您的数据、产品和直觉，您可能会考虑像我提到的那样消除差距，而不是在计算中将其考虑在内。

用户使用您的产品的时间量可能是某种信号，但如果他确实只是在一段时间前才开始使用，并且一直使用到今天，那么您可能需要考虑这一点，并且这种使用，这种平均分箱技术可能会有所帮助。

【讨论】：