如果对文档中的标记进行编码，则聚类文档？答案

【问题标题】：Cluster documents if word the tokens in the document are encoded?如果对文档中的标记进行编码，则聚类文档？
【发布时间】：2018-03-15 11:45:54
【问题描述】：

我必须根据列名中存在的标记对文档（实际上是数据库的列名）进行聚类。例如：-

C1 = ["Date", "Birth"]  
C2 = ["Order", "Date"]  
C3 = ["Birth", "Day"]  
C4 = ["CUSTOMER", "FIRST", "NAME"]  
C5 = ["FIRST","NAME"]  
.
.

但是所有这些标记实际上都是编码的，所以我收到的是跟随数据集。

C1 = ["44749712dbec183e983dcd78a7736c41", "e8329d2530ca7d80bb28176883186dfd"]  
C2 = ["a240fa27925a635b08dc28c9e4f9216d", "44749712dbec183e983dcd78a7736c41"]  
C3 = ["e8329d2530ca7d80bb28176883186dfd", "03727ac48595a24daed975559c944a44"]  
C4 = ["979ee13f032c02b4652a4e3c3928d90b", "2c2624a5059934a947d6e25fe8332ade", "ad32e604e17467fc435538334fbddf3e"]  
C5 = ["2c2624a5059934a947d6e25fe8332ade","ad32e604e17467fc435538334fbddf3e"]  
.  
.

现在我想通过使用他编码的值来进行聚类
C1、C2、C3 -> 集群 1
C4、C5 -> 集群 2

我目前不知道如何做到这一点。有什么机器学习算法可以解决我的问题吗？

我目前使用的是 Spark MLlib 1.6.0，但我找不到一种方法来应用 Word2Vec 等算法来解决我的问题。

是否可以在未编码的数据集上使用 word2vec 或算法？

谢谢。

【问题讨论】：

标签： algorithm machine-learning cluster-analysis apache-spark-mllib

【解决方案1】：

实际上编码应该没有问题，因为编码是统一的，例如文档C1和C3中的'Birth'关键字相同'e8329d2530ca7d80bb28176883186dfd'。至于关键作品的向量空间映射，你可以收集所有的关键词，取一个等长的向量，如果关键词存在则向量位置标记为“1”，不存在则标记为“0”。然而，有很多方法可以将文档映射到向量空间。 Refer this semila book by Jurafsk & Martin。至于执行聚类的具体模型，这里就不一一列举了，从一些简单的开始，比如 K-Mean 或 K-Nearest Neighbour，在 ANN 空间中也有很多可用的选项。

【讨论】：

我事先没有所有关键字。当我像扫描作业一样继续扫描数据库（列）时，将获得关键字。那么如何创建向量空间模型呢？感谢参考书
这取决于您是否可以重新扫描列，或者是否必须一次性完成。更简单的做法是将向量空间作为预处理步骤，然后重新扫描以实际构建数据点。也可以一次性完成，但更复杂。
要扫描的总列数将大于 1000 万。不可能一次扫描整个数据集。稍后可能会有另外 1000 万列出现
1000 万在机器学习领域是一个中等偏小的数字，只需使用足够的硬件和预处理即可。
我的意思是，如果我在扫描了 5 亿列之后必须扫描一个新的数据中心（比如 1 亿）会发生什么。这样向量长度不会很大吗？

【解决方案2】：

尝试混入 word2vec 和 Spark 等最新炒作并不容易。只使用你需要的东西，而不是花哨的东西。

首先你需要一个相似性。将每一列视为一个 set（无需编码），然后计算 Jaccard 索引或类似索引。然后进行 HAC 进行聚类。

【讨论】：

我以编码格式获取每一列。我无法将 Jaccard 应用于编码格式
当然可以将 Jaccard 应用于编码格式。为什么不呢？