【发布时间】:2020-06-11 07:38:36
【问题描述】:
我在 MacBook Pro 中使用 TF-IDF 和 k-means 聚类进行文本聚类。我的数据有 1400 个观察值,我想要 140 个集群。 TF-IDF 矩阵有 101611692 个元素 (780.9 Mb)。我已经花了 2 天时间,但 k-means 聚类步骤还没有完成。对于笔记本电脑来说,这在计算上是否过于昂贵,有没有更快的方法?谢谢。
【问题讨论】:
-
为什么不修剪矩阵?
-
您是否删除了停用词? 100,000,000 是很多“元素”。我假设你的意思是细胞,这意味着你有大约 70,000 个单词。你试过词干吗?这应该会降低一些复杂性。除此之外,您还可以尝试通过删除不常用的单词来减少稀疏性,尽管这样做时您应该小心,因为您可能会丢失与您的 TFIDF 相关的信息。您可能还想看看
cluster::pam,它允许通过pamonce参数进行一些优化。
标签: r text cluster-analysis