【问题标题】:3D euclidean distance to identify unknown samples识别未知样本的 3D 欧几里得距离
【发布时间】:2016-03-08 06:26:02
【问题描述】:

我有一个名为mydf 的数据框,其中我有三个主要协变量(PCA.1、PCA.2、PCA.3)。我想获得 3d 距离矩阵并获得所有比较 Samples 之间的最短欧几里得距离。在另一个名为myref 的数据框中,我有一些已知的Samples 身份和一些unknown 样本。通过计算与 mydf 的最短欧几里得距离,我想将已知的Identity 分配给未知样本。有人可以帮我完成这项工作。

mydf

mydf <- structure(list(Sample = c("1", "2", "4", "5", "6", "7", "8", 
"9", "10", "12"), PCA.1 = c(0.00338, -0.020373, -0.019842, -0.019161, 
-0.019594, -0.019728, -0.020356, 0.043339, -0.017559, -0.020657
), PCA.2 = c(0.00047, -0.010116, -0.011532, -0.011582, -0.013245, 
-0.011751, -0.010299, -0.005801, -0.01, -0.011334), PCA.3 = c(-0.008787, 
0.001412, 0.003751, 0.00371, 0.004242, 0.003738, 0.000592, -0.037229, 
0.004307, 0.00339)), .Names = c("Sample", "PCA.1", "PCA.2", "PCA.3"
), row.names = c(NA, 10L), class = "data.frame")

我的参考

myref<- structure(list(Sample = c("1", "2", "4", "5", "6", "7", "8", 
"9", "10", "12"), Identity = c("apple", "unknown", "ball", "unknown", 
"unknown", "car", "unknown", "cat", "unknown", "dog")), .Names = c("Sample", 
"Identity"), row.names = c(NA, 10L), class = "data.frame")

【问题讨论】:

    标签: r pca euclidean-distance


    【解决方案1】:
    uIX = which(myref$Identity == "unknown")
    dMat = as.matrix(dist(mydf[, -1])) # Calculate the Euclidean distance matrix
    nn = apply(dMat, 1, order)[2, ] # For each row of dMat order the values increasing values. 
                                    # Select nearest neighbor (it is 2, because 1st row will be self)
    myref$Identity[uIX] = myref$Identity[nn[uIX]]
    

    请注意,上面的代码会将一些身份设置为unknown。相反,如果您想匹配具有已知身份的最近邻居,请将第二行更改为

    dMat[uIX, uIX] = Inf
    

    【讨论】:

    • 为什么将一些设置为未知?你能解释一下你的代码吗?
    • 我添加了一些 cmets。希望他们解释代码。
    • 如果你计算mydf中的行的距离,你会看到一些最近的邻居是unknown。例如,样本 2 的最近邻居是样本 8,即 unknown
    猜你喜欢
    • 2014-01-17
    • 2013-03-02
    • 2011-07-04
    • 1970-01-01
    • 2015-07-15
    • 2014-02-04
    • 1970-01-01
    相关资源
    最近更新 更多