【发布时间】:2018-04-10 10:04:12
【问题描述】:
我正在尝试实现基于相似度阈值的聚类方法。这个想法是为被认为相似的内容定义一个阈值并获得不同的集群。我拥有的数据包含 3 亿个条目。我一直在寻找 Apache Spark 来做这件事。然而,几个小时后,我的问题多于答案:
1- 在 Spark 中实现的所有方法 kmeans (https://spark.apache.org/docs/2.2.0/mllib-clustering.html) 都是基于 Vectors 的相似性,因此难以扩展到其他类型的对象。就我而言,我有一组对象,我想扩展定义两个独立对象如何相似的方法,同样,我们在 Java 中扩展函数 compare 来进行比较。那可能吗?谁能提供一个例子?在我看到的所有示例中,基本都是向量或使用 Word2Vector 转换为向量的句子。
2- Spark中所有的聚类方法都需要提前知道聚类个数K。有谁知道在 Spark 中工作的层次聚类的实现。
提前致以最诚挚的问候和感谢。
顺便说一句:我在 StackOverflow 中检查了很多人对这个主题感兴趣,但没有人给出完整的回复。
【问题讨论】:
标签: apache-spark bigdata apache-spark-mllib hierarchical-clustering cosine-similarity