【发布时间】:2016-12-20 08:47:16
【问题描述】:
我正在尝试在 R 中实现类似于 @bens code here 的东西。我正在处理非结构化新闻文章,并希望在进行主题建模后对它们进行聚类我尝试执行 @ben 提供的代码并且它有效.我想知道如何在训练和测试中划分数据并预测测试数据的集群,然后评估测试数据的集群方式可能使用平均平均精度。
我知道这变成了半无监督而不是无监督,但我想试试看结果。
【问题讨论】:
-
最好在Cross Validated 上收到有关如何有条不紊地进行设置的建议。在这里,您需要提供一些您尝试过的代码(实现),并指出您在实现方法时遇到的问题(毕竟需要一个方法)。请以这样的方式扩展问题,使其符合任一站点的条件,并在必要时请求迁移(通过“标志”菜单)。
-
好的。。谢谢,我会在那里转发
-
我已发起迁移请求。这样,此问题将被移至 CV,而不会创建副本。
-
谢谢@AlexR 但是你能帮我解决这个问题吗?
-
我不确定这个问题是否会以当前形式存在于Cross Validated 上。它需要更清晰、独立,而不是代码审查或关于如何在软件中实现给定程序。如果唯一真正的问题是如何将数据划分为训练和测试,以及如何评估聚类的有效性,那将是一个很好的问题,但却是重复的。您应该搜索该站点并阅读现有信息。然后你可以发布一个特定于你仍然需要知道的问题。
标签: r cluster-analysis topic-modeling