【发布时间】:2016-08-22 03:41:58
【问题描述】:
数据集:我得到了单个客户每天使用产品的分钟数,我试图对这些数据进行聚类以找到常见的使用模式。
我的问题:我如何格式化数据,例如,一年使用率高的高级用户看起来与之前只能使用该设备一个月的不同高级用户相同我结束了数据收集?
到目前为止,我已将每个客户转换为一个数组,其中每个单元格是当天使用的分钟数。该数组从用户第一次使用产品时开始,到用户第一年使用后结束。对于聚类模型,单元格中的所有条目必须是双精度值(例如使用 200.0 分钟)。我考虑过将数据收集最后一天之后的所有单元格/天数设置为 -1.0 或 NULL。这些都是有效的方法吗?如果不是,你有什么建议?
【问题讨论】:
-
数据科学社区要小得多,即使他们在这方面更有资格,我也没有预料到会有任何及时的回应。为什么将同一个问题发布到两个不同的社区是不合适的?
标签: machine-learning cluster-analysis data-science data-cleaning bigdata