【发布时间】:2014-09-25 06:42:30
【问题描述】:
我目前正在重新访问几年前使用 R 语言执行的随机森林项目,以:
- 使用无监督的 RandomForest 生成数据输入的邻近矩阵
- 从此邻近矩阵计算距离矩阵并传递给围绕中心点分区 (PAM) 聚类算法
- 使用通过 PAM 获得的集群,在监督模式下运行 RandomForest 来训练新模型。
- 使用此模型使用另一个数据集从未来时间点进行预测。
对于许多项目,我已将我的工作流程转移到 Python,因为该语言非常灵活且有趣,但与我在 R 中执行此类任务的方式相比,我仍然对 sklearn 有所了解.我的挂断是在产生一个接近矩阵(或一些容器保持样本之间的接近度),以传递给PAM。我找到了以下post,它描述了一个类似的问题,但我一直无法找到一种方法来实现接受的答案作者的建议。
关于如何实现这一点的任何线索?任何帮助都将不胜感激,我一定会将其返回给更大的社区。我知道还有很多其他 R 到 Python 的转换者会从这类信息中受益。
如果这是一个我忽略的简单解决方案,请提前致谢并道歉。
【问题讨论】:
-
这方面有什么进展吗?没有人真正描述过如何使用 sklearn 在 Python 中实现这一点。
标签: python cluster-analysis random-forest