【发布时间】:2019-08-17 04:47:03
【问题描述】:
我目前正在做一个项目,我需要一些帮助。我想使用统计模型预测航班延误的长度。该数据集不包含航班延误的长度,但可以从实际和预定起飞时间计算,我知道实际起飞时间 - 预定起飞时间会给我作为因变量的航班延误。我正在努力以有用的形式获得解释性(独立)变量来进行回归分析 - 主要问题是当您从 csv 文件中读取表格时前两列的时间格式。我已将数据文件附加到问题中,因为我不太确定如何附加我的文件,我是这个编码的新手,呵呵。任何帮助将不胜感激。 xx
https://drive.google.com/file/d/11BXmJCB5UGEIRmVkM-yxPb_dHeD2CgXa/view?usp=sharing
编辑:
首先感谢大家的帮助
好的,我将尝试就这个主题提出更准确的问题:
所以在导入文件后使用:
1)
Delays <- read.table("FlightDelaysSM.csv",header =T,sep=",")
2)我遇到的主要问题是将列调度时间和深度时间转换为可以进行算术计算的格式
3)我尝试了以下
Delays[,1] - Delays[,2]
出现明显问题的地方,例如 800 (8am) - 756 (7.56am) = 44 而不是 4 分钟
4)在@kerry Jackson 的帮助下(谢谢,你太棒了 x)我试过了
DepartureTime <- strptime(formatC(Delays$deptime, width = 4, format = "d", flag = "0", %H%M)
ScheduleTime <- strptime(formatC(Delays$schedtime, width = 4, format = "d", flag = "0", %H%M)
DelayTime = DepartureTime - ScheduleTime
这些值也以秒为单位,我希望以分钟为单位,我该怎么做?
5)然后我做了以下事情:
DelayData <- data.frame(ScheduleTime, DepartureTime, DelayTime, Delays[, 4:7])
What I attain after making the DelayData
正如您在图像中看到的那样,我的列中有秒单位,称为 DelayTime,我不希望如 4) 所述,日期在 ScheduleTime 和 DepartureTime 列中,我能否就如何获得一些建议纠正这个?
【问题讨论】:
-
那么您到底尝试了什么?你在哪里卡住? Stack Overflow 是针对特定的编程问题。如果您包含一个简单的reproducible example,其中包含示例输入(以可重现的格式,而不是在外部站点上)和可用于测试和验证可能解决方案的所需输出,那么为您提供帮助会更容易。
-
如果你想计算航班延误,也许你想做
strptime(formatC(df$deptime, width = 4, format = "d", flag = "0"), "%H%M") - strptime(formatC(df$schedtime, width = 4, format = "d", flag = "0"), "%H%M")这样的事情。 -
非常感谢你们,我已经编辑了这个问题,希望能更清楚地了解我遇到的问题。
标签: r regression analysis