【发布时间】:2016-11-30 13:55:51
【问题描述】:
我有一家来自统计计算的航空公司 dataset,我正在尝试分析它。
有变量 DepTime 和 ArrDelay(出发时间和到达延迟)。我正在尝试分析到达延迟如何随出发时间的某些部分而变化。我的目标是找出一个人在订票时应该避开哪些时间段以避免到达延误
我的理解-如果在 dep time >1800 的到达延迟和 dep time >1900 的到达延迟之间的单尾 t 检验显示出高度显着性,这意味着应该避免在 1800 和 1900 之间的航班。(请纠正我如果我错了)。我想在所有出发时间运行此类测试。
**对编程和数据科学完全陌生。任何帮助将不胜感激。
数据看起来像这样。突出显示的列是我正在分析的列
【问题讨论】:
-
那么你想测试所有的出发时间吗?最好是测试每个小时与所有时间,这样您就知道哪些时间比“平均一天”更好/更差。您为什么不发布一些数据以及您希望输出的样子,以便我们更好地帮助您。
-
查看SO Post,了解如何制作 R 可重现的示例
-
抱歉之前的评论。因此,仅考虑两列 DepTime 和 ArrDelay 数据看起来像这样 [1829(time): 23(delay in minutes)]、[1700:10]、[1000:5]、[1750:137]。你的想法听起来也不错。我基本上想看看一天中的哪些时间不适合旅行延误。
-
请将重现此问题所需的所有代码和数据放入问题本身
-
向问题添加了数据集的快照。
标签: r statistics data-science t-test