【问题标题】：Populate all items in grouping R填充分组 R 中的所有项目
【发布时间】：2016-03-31 14:16:28
【问题描述】：

我收到一个错误，我认为根本原因是在我的分组中，并非所有组都具有值。

数据可以在这里下载：https://opendata.miamidade.gov/311/311-Service-Requests-Miami-Dade-County/dj6j-qg5t

我想要做的是有一个函数，它采用嵌套分组并检测所有孔并填充零。让我们看下面的代码示例：

d <- rDSamp %>% 
  FilterDateRange("Ticket.Created.Date...Time", "1/1/2013", "12/31/2013") %>%
  group_by(Ticket.Created.Date...Time, Case.Owner) %>%
  summarise(
    count = n()
  ) %>%
  arrange(Ticket.Created.Date...Time)

在汇总之后，我需要添加一个遍历每个日期的函数，如果该日期不存在案例所有者，则创建案例所有者，并添加计数为 0。

这里是到达这一点的代码：

library("ggvis") 
library("magrittr") 
library("dplyr")
library("tidyr")
library("shiny")
library("checkpoint")

checkpoint("2016-03-29")

rData <- read.csv("C:\\data\\Miami_311.csv", 
                 header=TRUE, 
                 sep=",")
rDSamp <- rData[sample(1:length(rData$Case.Owner), 1000),]
rDSamp = rData %>%
    subset(
      Case.Owner == "Animal_Services" |
        Case.Owner == "Waste_Management" |
        Case.Owner == "Community_Information_and_Outreach" |
        Case.Owner == "Waste_Management")
rDSamp$Case.Owner = factor(rDSamp$Case.Owner)
#Convert to known date time
rDSamp$Ticket.Created.Date...Time <- 
  rDSamp$Ticket.Created.Date...Time %>%
  as.POSIXct(format="%m/%d/%Y") %>%
  as.character()

FilterDateRange = function(data, feature, minDate, maxDate) {
  minDate = minDate %>% 
          as.POSIXct(format="%m/%d/%Y") %>% 
          as.character() 
  maxDate = maxDate %>% 
          as.POSIXct(format="%m/%d/%Y") %>% 
          as.character() 
  result = subset(data, data[feature] <= maxDate)
  subset(result, result[feature] >= minDate)
}

d <- rDSamp %>% 
  FilterDateRange("Ticket.Created.Date...Time", "1/1/2013", "12/31/2013") %>%
  group_by(Ticket.Created.Date...Time, Case.Owner) %>%
  summarise(
count = n()
  ) %>%
  arrange(Ticket.Created.Date...Time)

对于最终信息，我正在尝试使用 ggvis layer_smooths，它报告 na 是由强制引入的，我的假设是数据中的漏洞导致了这种情况。

找到了一种解决方案，正在寻找更通用的解决方案...

FillDataHolesWithZeros = function(input){
  countZero = input %>% 
    group_by(Ticket.Created.Date...Time) %>% 
    summarise(count = n()) %>%
    filter(count < length(levels(input$Case.Owner)))
  for(i in 1:nrow(countZero))
  {
date = countZero[i,]$Ticket.Created.Date...Time
departments = input %>% filter(Ticket.Created.Date...Time == date)
myLevels = levels(input$Case.Owner)
for(j in 1:nrow(departments))
{
  owner = departments[j,]$Case.Owner
  myLevels = myLevels[myLevels != owner]
}
print(paste(i,":",myLevels))
for(k in 1:length(myLevels)){
  input = input %>% rbind(data.frame(
    Ticket.Created.Date...Time = date,
    Case.Owner = myLevels[k],
    count = 0
      ))
    }
  }
  return(input)
}

【问题讨论】：

闪亮标签，因为它为闪亮的可视化提供动力，引发错误。平滑图正在消亡。
对于 NA 问题，在我尝试执行绘图之前，我的数据框没有 NA。问题是数据框是完整的，但是如果您按日期分组，则某些案例所有者根本没有行，因为当天没有为该部门拨打电话。我需要弄清楚如何在所有者不存在的情况下添加行。
所以只显示问题，你有 data.frame 和 date 列，你有所有可能的日期（或间隔）的列表，并且想要向 data.frame 添加行？
我有以下功能/列：日期、CaseOwner、CallCount。我已按日期、CaseOwner（按此顺序）分组。当我在数据集上执行 loess 时，它失败了，就像在某些日期一样，存在不存在行的洞。示例：1/2/2013, AnimalService, 3 - 1/3/2013, AnimalService, 4 - 1/3/2013 WateManagement, 4, - 1/3/2013 OutReach, 5 我需要在 1/2 中添加 2 行/2013 年，WasteManagement 和 OutReach 为零，但我的因素可以动态变化。
最后一项，将行添加到分组中是理想的。

标签： r shiny data-manipulation

【解决方案1】：

试试

例如

数据

（为将来尝试显示可重现的数据和具体问题）

Date=c(rep("2016-01-01",2),rep("2016-01-02",3),rep("2016-01-03",4))
CaseOwner=c(letters[1:2],letters[1:3],letters[1:4])
CallCount=1:9
dat1=data.frame(Date, CaseOwner, CallCount)

组+添加行

library(dplyr)
library(tidyr)
dat1%>%group_by(Date,CaseOwner)%>%summarize(cnt=max(CallCount))%>%complete(CaseOwner, fill = list(cnt = 0))

结果

Source: local data frame [12 x 3]

         Date CaseOwner   cnt
       (fctr)    (fctr) (dbl)
1  2016-01-01         a     1
2  2016-01-01         b     2
3  2016-01-01         c     0
4  2016-01-01         d     0
5  2016-01-02         a     3
6  2016-01-02         b     4
7  2016-01-02         c     5
8  2016-01-02         d     0
9  2016-01-03         a     6
10 2016-01-03         b     7
11 2016-01-03         c     8
12 2016-01-03         d     9

附加

1) %in% - 看起来漂亮一些 |

rDSamp = rData %>%
    subset(
      Case.Owner == "Animal_Services" |
        Case.Owner == "Waste_Management" |
        Case.Owner == "Community_Information_and_Outreach" |
        Case.Owner == "Waste_Management")

可以修改

    rDSamp = rData[rData$Case.Owner %in% 
c("Animal_Services","Waste_Management","Community_Information_and_Outreach","Waste_Management"),]

2) 如果您想比较日期，则无需将其转换为 char

maxDate = maxDate %>% 
          as.POSIXct(format="%m/%d/%Y") %>% 
          as.character()

和

data[feature] <= maxDate

将作为字符串进行比较。

【讨论】：

我提供了一个可以下载数据的链接。
关于子集的精彩注释。在日期上，我遇到了直接将其转换为日期留下一些奇怪的工件的问题，我将清除我的 rSession 并重试。
不是每个人都想要，也不是所有人都可以下载你的数据（我的工作代理不给我）更好地使用任何人都可以复制粘贴的东西
和“[”比 r 中的“子集”更好（更安全）stackoverflow.com/questions/9860090/…
+ 一个 for %in% 你可以使用向量作为第二个参数，比如 a %in% b whe b 可以是 dunamic （例如闪亮的多选输入）