【发布时间】:2019-10-04 04:20:03
【问题描述】:
我正在为无监督学习算法设置数据。该项目的目标是根据他们在网站上的行为将不同的客户分组(聚集)在一起。显然,某种聚类算法最适合发现人类无法看到的数据中的模式。
但是,对于客户在网站上为该次访问所采取的每项操作,该数据库包含针对每位客户的多行(按时间顺序)。例如,ID# 123 的客户在 X 时间单击第 1 页,这将是数据库中的一行,然后同一客户在 Y 时间单击另一个页面。这将在数据库中创建另一行。
我的问题是,在这个给定的场景中,您会使用什么算法或方法进行聚类? K-means对于这类问题确实很受欢迎,但我不知道是否可以在这种情况下使用,因为分组。是否有可能围绕一个包含多行的特定 ID 进行聚类分析?
感谢任何我应该采取的无监督学习的帮助/指导。
【问题讨论】:
-
似乎您应该为每个客户条目创建一个嵌入。一种方法是将它们视为事件序列,并在自然语言处理中使用现有技术。
-
@xxbidiao 您能否更深入地解释一下如何做到这一点?我遇到过像 Word2Vector 这样适用于我们的环境(Python)的库。而且我理解您将动作转换为“句子”的想法,然后可以进行处理。我只是对最后一步感到困惑,如何把它变成一个可以被 kmeans 使用的数字。谢谢
标签: machine-learning cluster-analysis k-means data-analysis unsupervised-learning