【问题标题】:Cluster documents if word the tokens in the document are encoded?如果对文档中的标记进行编码,则聚类文档?
【发布时间】:2018-03-15 11:45:54
【问题描述】:

我必须根据列名中存在的标记对文档(实际上是数据库的列名)进行聚类。例如:-

C1 = ["Date", "Birth"]  
C2 = ["Order", "Date"]  
C3 = ["Birth", "Day"]  
C4 = ["CUSTOMER", "FIRST", "NAME"]  
C5 = ["FIRST","NAME"]  
.
.

但是所有这些标记实际上都是编码的,所以我收到的是跟随数据集。

C1 = ["44749712dbec183e983dcd78a7736c41", "e8329d2530ca7d80bb28176883186dfd"]  
C2 = ["a240fa27925a635b08dc28c9e4f9216d", "44749712dbec183e983dcd78a7736c41"]  
C3 = ["e8329d2530ca7d80bb28176883186dfd", "03727ac48595a24daed975559c944a44"]  
C4 = ["979ee13f032c02b4652a4e3c3928d90b", "2c2624a5059934a947d6e25fe8332ade", "ad32e604e17467fc435538334fbddf3e"]  
C5 = ["2c2624a5059934a947d6e25fe8332ade","ad32e604e17467fc435538334fbddf3e"]  
.  
.

现在我想通过使用他编码的值来进行聚类
C1、C2、C3 -> 集群 1
C4、C5 -> 集群 2

我目前不知道如何做到这一点。有什么机器学习算法可以解决我的问题吗?

我目前使用的是 Spark MLlib 1.6.0,但我找不到一种方法来应用 Word2Vec 等算法来解决我的问题。

是否可以在未编码的数据集上使用 word2vec 或算法?

谢谢。

【问题讨论】:

    标签: algorithm machine-learning cluster-analysis apache-spark-mllib


    【解决方案1】:

    实际上编码应该没有问题,因为编码是统一的,例如文档C1和C3中的'Birth'关键字相同'e8329d2530ca7d80bb28176883186dfd'。至于关键作品的向量空间映射,你可以收集所有的关键词,取一个等长的向量,如果关键词存在则向量位置标记为“1”,不存在则标记为“0”。然而,有很多方法可以将文档映射到向量空间。 Refer this semila book by Jurafsk & Martin。至于执行聚类的具体模型,这里就不一一列举了,从一些简单的开始,比如 K-Mean 或 K-Nearest Neighbour,在 ANN 空间中也有很多可用的选项。

    【讨论】:

    • 我事先没有所有关键字。当我像扫描作业一样继续扫描数据库(列)时,将获得关键字。那么如何创建向量空间模型呢?感谢参考书
    • 这取决于您是否可以重新扫描列,或者是否必须一次性完成。更简单的做法是将向量空间作为预处理步骤,然后重新扫描以实际构建数据点。也可以一次性完成,但更复杂。
    • 要扫描的总列数将大于 1000 万。不可能一次扫描整个数据集。稍后可能会有另外 1000 万列出现
    • 1000 万在机器学习领域是一个中等偏小的数字,只需使用足够的硬件和预处理即可。
    • 我的意思是,如果我在扫描了 5 亿列之后必须扫描一个新的数据中心(比如 1 亿)会发生什么。这样向量长度不会很大吗?
    【解决方案2】:

    尝试混入 word2vec 和 Spark 等最新炒作并不容易。只使用你需要的东西,而不是花哨的东西。

    首先你需要一个相似性。将每一列视为一个 set(无需编码),然后计算 Jaccard 索引或类似索引。然后进行 HAC 进行聚类。

    【讨论】:

    • 我以编码格式获取每一列。我无法将 Jaccard 应用于编码格式
    • 当然可以将 Jaccard 应用于编码格式。为什么不呢?
    猜你喜欢
    • 2018-09-20
    • 2015-04-15
    • 2014-11-03
    • 2020-08-29
    • 2014-10-02
    • 1970-01-01
    • 2018-02-21
    • 2015-04-12
    • 2012-03-01
    相关资源
    最近更新 更多