【发布时间】:2015-03-22 04:55:07
【问题描述】:
我正在使用 K 均值进行单个文档聚类,我现在正在准备要聚类的数据并在其向量表示中表示 N 个句子。
但是,如果我理解正确,KMeans 算法设置为根据到 k 个中心点的欧几里德距离创建 k 个聚类。不管句子顺序如何。
我的问题是我想保持句子的顺序并在聚类任务中考虑它们。
假设S = {1...n}一组表示句子的n个向量,S_1 = sentence 1 , S_2 = sentence 2 .. etc。
我希望集群是K_1 = S[1..i], K_2 = S[i..j] etc..
我想也许可以将其转换为 1D 并将每个句子的索引与转换后的值相加。但不确定它是否会有所帮助。也许还有更聪明的方法。
【问题讨论】:
-
听起来你想做某种文档分割而不是聚类。也许这一系列研究是相关的:aclweb.org/anthology/W08-1803
-
不再是 k-means 或聚类。您希望将文档分成 k 段,恕我直言,这就是相似性结束的地方。 (PS 如果您认为这是一个简单的旧优化问题,有一个简单的解决方案)
标签: algorithm nlp cluster-analysis k-means