【问题标题】:Cut() error - 'breaks' are not uniqueCut() 错误 - 'breaks' 不是唯一的
【发布时间】:2013-04-24 06:33:33
【问题描述】:

我有以下数据框:

 a         
    ID   a.1    b.1     a.2   b.2
1    1  40.00   100.00  NA    88.89
2    2  100.00  100.00  100   100.00
3    3  50.00   100.00  75    100.00
4    4  66.67   59.38   NA    59.38
5    5  37.50   100.00  NA    100.00
6    6  100.00  100.00  100   100.00

当我将以下代码应用于此数据框时:

 temp <- do.call(rbind,strsplit(names(df)[-1],".",fixed=TRUE))
 dup.temp <- temp[duplicated(temp[,1]),]

 res <- lapply(dup.temp[,1],function(i) {
 breaks <- c(-Inf,quantile(a[,paste(i,1,sep=".")], na.rm=T),Inf)
 cut(a[,paste(i,2,sep=".")],breaks)
 })

cut()函数报错:

 Error in cut.default(a[, paste(i, 2, sep = ".")], breaks) : 
 'breaks' are not unique

但是,相同的代码在相似的数据帧上运行良好:

 varnames<-c("ID", "a.1", "b.1", "c.1", "a.2", "b.2", "c.2")

 a <-matrix (c(1,2,3,4, 5, 6, 7), 2,7)

 colnames (a)<-varnames

 df<-as.data.frame (a)


    ID  a.1  b.1  c.1  a.2  b.2  c.2
  1  1    3    5    7    2    4    6
  2  2    4    6    1    3    5    7

 res <- lapply(dup.temp[,1],function(i) {
 breaks <- c(-Inf,quantile(a[,paste(i,1,sep=".")], na.rm=T),Inf)
 cut(a[,paste(i,2,sep=".")],breaks)
 })

 res
[[1]]
[1] (-Inf,3] (-Inf,3]
Levels: (-Inf,3] (3,3.25] (3.25,3.5] (3.5,3.75] (3.75,4] (4, Inf]

[[2]]
[1] (-Inf,5] (-Inf,5]
Levels: (-Inf,5] (5,5.25] (5.25,5.5] (5.5,5.75] (5.75,6] (6, Inf]

[[3]]
[1] (5.5,7] (5.5,7]
Levels: (-Inf,1] (1,2.5] (2.5,4] (4,5.5] (5.5,7] (7, Inf]

这个错误的原因是什么? 如何修复? 谢谢你。

【问题讨论】:

    标签: r


    【解决方案1】:

    您收到此错误是因为您的数据中 b.1a.2b.2 列的分位数值对于某些级别是相同的,因此它们不能直接用作函数 cut() 中的中断值。

    apply(a,2,quantile,na.rm=T)
           ID      a.1    b.1   a.2      b.2
    0%   1.00  37.5000  59.38  75.0  59.3800
    25%  2.25  42.5000 100.00  87.5  91.6675
    50%  3.50  58.3350 100.00 100.0 100.0000
    75%  4.75  91.6675 100.00 100.0 100.0000
    100% 6.00 100.0000 100.00 100.0 100.0000
    

    解决此问题的一种方法是将quantile() 放入unique() 函数中 - 这样您将删除所有不唯一的分位数值。如果分位数不是唯一的,这当然会减少断点。

    res <- lapply(dup.temp[,1],function(i) {
      breaks <- c(-Inf,unique(quantile(a[,paste(i,1,sep=".")], na.rm=T)),Inf)
      cut(a[,paste(i,2,sep=".")],breaks)
    })
    
    [[1]]
    [1] <NA>        (91.7,100]  (58.3,91.7] <NA>        <NA>        (91.7,100] 
    Levels: (-Inf,37.5] (37.5,42.5] (42.5,58.3] (58.3,91.7] (91.7,100] (100, Inf]
    
    [[2]]
    [1] (59.4,100]  (59.4,100]  (59.4,100]  (-Inf,59.4] (59.4,100]  (59.4,100] 
    Levels: (-Inf,59.4] (59.4,100] (100, Inf]
    

    【讨论】:

      【解决方案2】:

      如果您希望保留分位数,另一种选择是添加一点抖动,例如

      breaks = c(-Inf,quantile(a[,paste(i,1,sep=".")], na.rm=T),Inf)
      breaks = breaks + seq_along(breaks) * .Machine$double.eps
      

      【讨论】:

        【解决方案3】:

        您可以使用 .bincode 代替 cut,它接受非唯一的中断向量。

        【讨论】:

          【解决方案4】:

          如果您在说十分位数、四分位数等时实际上是指人口的 10% 或 25%,而不是十分位数/四分位数桶的实际数值,您可以先对您的值进行排名,然后应用 @987654321 @函数上的行列:

          a <- c(1,1,1,2,3,4,5,6,7,7,7,7,99,0.5,100,54,3,100,100,100,11,11,12,11,0)
          a_ranks <- rank(a, ties.method = "first")
          decile <- cut(a_ranks, quantile(a_ranks, probs=0:10/10), include.lowest=TRUE, labels=FALSE)  
          

          【讨论】:

            猜你喜欢
            • 2019-06-14
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 2018-02-21
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            相关资源
            最近更新 更多