文本聚类需要太多时间答案

【问题标题】：Text clustering takes too much time文本聚类需要太多时间
【发布时间】：2020-06-11 07:38:36
【问题描述】：

我在 MacBook Pro 中使用 TF-IDF 和 k-means 聚类进行文本聚类。我的数据有 1400 个观察值，我想要 140 个集群。 TF-IDF 矩阵有 101611692 个元素 (780.9 Mb)。我已经花了 2 天时间，但 k-means 聚类步骤还没有完成。对于笔记本电脑来说，这在计算上是否过于昂贵，有没有更快的方法？谢谢。

【问题讨论】：

为什么不修剪矩阵？
您是否删除了停用词？ 100,000,000 是很多“元素”。我假设你的意思是细胞，这意味着你有大约 70,000 个单词。你试过词干吗？这应该会降低一些复杂性。除此之外，您还可以尝试通过删除不常用的单词来减少稀疏性，尽管这样做时您应该小心，因为您可能会丢失与您的 TFIDF 相关的信息。您可能还想看看cluster::pam，它允许通过pamonce 参数进行一些优化。

标签： r text cluster-analysis

【解决方案1】：

K-Means 可能是所有聚类算法中最简单的。它的复杂性和处理时间随着数据点数量的增加和维度数量的增加而线性增加。因此，在具有许多数据点的高维空间中运行这种方法几乎是不可行的。删除停用词并在更小的样本上尝试，比如你现在正在做的 10%。确保它运行并做你想做的事，否则你会烧掉 2 天，你最终会回到现在的位置，想知道发生了什么，因为什么都没做。

【讨论】：