【发布时间】:2018-03-15 11:45:54
【问题描述】:
我必须根据列名中存在的标记对文档(实际上是数据库的列名)进行聚类。例如:-
C1 = ["Date", "Birth"]
C2 = ["Order", "Date"]
C3 = ["Birth", "Day"]
C4 = ["CUSTOMER", "FIRST", "NAME"]
C5 = ["FIRST","NAME"]
.
.
但是所有这些标记实际上都是编码的,所以我收到的是跟随数据集。
C1 = ["44749712dbec183e983dcd78a7736c41", "e8329d2530ca7d80bb28176883186dfd"]
C2 = ["a240fa27925a635b08dc28c9e4f9216d", "44749712dbec183e983dcd78a7736c41"]
C3 = ["e8329d2530ca7d80bb28176883186dfd", "03727ac48595a24daed975559c944a44"]
C4 = ["979ee13f032c02b4652a4e3c3928d90b", "2c2624a5059934a947d6e25fe8332ade", "ad32e604e17467fc435538334fbddf3e"]
C5 = ["2c2624a5059934a947d6e25fe8332ade","ad32e604e17467fc435538334fbddf3e"]
.
.
现在我想通过使用他编码的值来进行聚类
C1、C2、C3 -> 集群 1
C4、C5 -> 集群 2
我目前不知道如何做到这一点。有什么机器学习算法可以解决我的问题吗?
我目前使用的是 Spark MLlib 1.6.0,但我找不到一种方法来应用 Word2Vec 等算法来解决我的问题。
是否可以在未编码的数据集上使用 word2vec 或算法?
谢谢。
【问题讨论】:
标签: algorithm machine-learning cluster-analysis apache-spark-mllib