是否可以在无监督学习中使用分组的数据行对数据进行聚类？答案

【问题标题】：Is it possible to cluster data with grouped rows of data in unsupervised learning?是否可以在无监督学习中使用分组的数据行对数据进行聚类？
【发布时间】：2019-10-04 04:20:03
【问题描述】：

我正在为无监督学习算法设置数据。该项目的目标是根据他们在网站上的行为将不同的客户分组（聚集）在一起。显然，某种聚类算法最适合发现人类无法看到的数据中的模式。

但是，对于客户在网站上为该次访问所采取的每项操作，该数据库包含针对每位客户的多行（按时间顺序）。例如，ID# 123 的客户在 X 时间单击第 1 页，这将是数据库中的一行，然后同一客户在 Y 时间单击另一个页面。这将在数据库中创建另一行。

我的问题是，在这个给定的场景中，您会使用什么算法或方法进行聚类？ K-means对于这类问题确实很受欢迎，但我不知道是否可以在这种情况下使用，因为分组。是否有可能围绕一个包含多行的特定 ID 进行聚类分析？

感谢任何我应该采取的无监督学习的帮助/指导。

【问题讨论】：

似乎您应该为每个客户条目创建一个嵌入。一种方法是将它们视为事件序列，并在自然语言处理中使用现有技术。
@xxbidiao 您能否更深入地解释一下如何做到这一点？我遇到过像 Word2Vector 这样适用于我们的环境（Python）的库。而且我理解您将动作转换为“句子”的想法，然后可以进行处理。我只是对最后一步感到困惑，如何把它变成一个可以被 kmeans 使用的数字。谢谢

标签： machine-learning cluster-analysis k-means data-analysis unsupervised-learning

【解决方案1】：

总之，

了解每个事件的固定长度嵌入（表示）；
了解一种将此类嵌入序列组合成每个事件的单一表示的方法，然后使用您最喜欢的无监督方法。

对于 (1)，您可以手动完成，也可以使用编码器/解码器；对于 (2)，您可以做很多事情，从简单地平均每个事件的嵌入，到训练 encoder-decoder 重建原始事件序列并采用中间表示（解码器用来重建原始序列）。

关于这个主题的好读物（虽然有点老；你现在也可以选择Transformer Network）：

Representations for Language: From Word Embeddings to Sentence Meanings

【讨论】：