【发布时间】:2020-12-16 05:27:46
【问题描述】:
我有一个非常大的短信数据集(大约 350 万)。我正在使用 tf-idf 向量来表示此数据集中的每条消息。我想将同一主题的消息聚集在一起,我不知道实际的集群,甚至不知道它们的数量。
所以我搜索了一下,发现 Optics、DBSCAN 或 HDBSCAN 可以完成这项工作,但没有它们的实现是 spark ml 或 mllib。根据this在sparkmllib中有K-means、Gaussian mixture、Power iteration clustering (PIC)、Latent Dirichlet allocation (LDA)、Bisecting k-means和Streaming k-means的实现。
所以我的问题是,它们都需要 K 作为输入,而我没有。 Spark 中是否有任何聚类算法可以自行查找聚类数量?
【问题讨论】:
-
听起来更像是
groupBy topoic要求,而不是集群要求。为什么要将此作为聚类问题来解决?尺寸是多少? -
@PubuduSitinamaluwa 那么有没有办法按未知主题对这些数据集进行分组? tf-idf向量的维度很高,向量很稀疏
标签: apache-spark k-means apache-spark-mllib