【发布时间】:2018-02-25 16:18:26
【问题描述】:
我有一组钻孔数据,每 2 米包含有关不同地质力学特性的信息。我正在尝试创建地质力学域,并将每个点分配给不同的域。
我正在尝试使用随机森林分类,但不确定如何将邻近矩阵(或 randomForest 函数的任何结果)与标签相关联。
到目前为止,我的简陋代码如下:
dh <- read.csv("gt_1_classification.csv", header = T)
#replace all N/A with 0
dh[is.na(dh)] <- 0
library(randomForest)
dh_rf <- randomForest(dh, importance=TRUE, proximity=FALSE, ntree=500, type=unsupervised, forest=NULL)
我希望分类器自行决定域。
任何帮助都会很棒!
【问题讨论】:
-
如果有足够的数据来测试代码和演示结果,这可能是一个有用的问题。因为它似乎太模糊了,无法进一步努力。
-
@42- 例如,可以使用 Iris 数据集完成相同的挑战。如果您删除物种列并尝试编写一个分类器,该分类器将查看数据并在此处为物种分配其自身 - 同样的问题。
-
更合适的响应是提供加载
iris并执行您想象会构建对象以供进一步分析的操作的代码。 -
@CHopp 像这样想 - 一个人提出问题/赞成做一次创建可重现示例的工作是否更合理,或者对于可能尝试的 N 个人中的每个人来说更合理为了帮助他解决他的问题,做一个可重复的例子的工作?这意味着工作要完成 N 次,其中 N 可能是几到几十甚至几百。哲学和经济学的答案显然是请求者应该做 1 次工作。更不用说 StackOverflow 上的 MCVE 规则了...stackoverflow.com/help/mcve
-
无论如何,随机森林是有监督的。因此,您必须做的是使用聚类分析、启发式或类似方法创建自己的标签。然后在创建的标签上训练 RF。另见stats.stackexchange.com/questions/72370/…
标签: r machine-learning random-forest unsupervised-learning multilabel-classification