KDD CUP 2017 总结

@QQ:609659119
@https://blog.csdn.net/xiaopc3357/article/details/81062434

一. 任务:分为两个

任务1:估计从指定的十字路口到收费站的平均行驶时间,每20分钟(左闭右开)作为一个时间窗口,评估段为10月28日-24日,历史数据为7月19日到10月17日。

a.从交叉路口intersection A到收费站 tollgate 2 和收费站 tollgate 3 的路线;
b. 从交叉路口intersection B到收费站 tollgate 1 和收费站 tollgate 3 的路线;
c. 从交叉路口intersection C到收费站 tollgate 1 和收费站 tollgate 3 的路线。
KDD CUP 2017 回顾总结

提交文件格式:表1

KDD CUP 2017 回顾总结

任务2:预测每个收费站平均车流量,对于每20分钟的时间窗口,分别预测收费站tollgate 1 / 2 / 3 的车流量。其中收费站2只允许进入高速公路,而其他允许交通双向,因此任务为预测收费站1/3的进出和收费站2的进车量。评估段为10月28日-24日,历史数据为9月19日到10月17日

提交文件格式:表2
KDD CUP 2017 回顾总结
KDD CUP 2017 回顾总结

注意**

对于行驶时间预测,初始训练集包含从7月19日至10月17日收集的数据。 对于流量预测,初始训练集包含从9月19日到10月17日收集的数据。

二.评价指标

任务1:

KDD CUP 2017 回顾总结

任务2:

KDD CUP 2017 回顾总结

三.数据介绍

1. 目标区域网络拓扑图,图1

2. 道路连接属性,表3

KDD CUP 2017 回顾总结
KDD CUP 2017 回顾总结

3. 从十字路口到收费站的车辆路线,表4

KDD CUP 2017 回顾总结

4. 车辆沿着路线的轨迹,表5

KDD CUP 2017 回顾总结
KDD CUP 2017 回顾总结

5. 通过收费站的车流量历史数据,表6

KDD CUP 2017 回顾总结

6. 目标区域的天气数据(每3小时记录一次),表7

KDD CUP 2017 回顾总结

四.解题分析

用前两小时数据预测后两小时平均行驶时间和车流量,以20分钟做完一个窗口样本,上午6点-8点,预测8点到10点指定路线平均行驶时间和收费站车流量,下午15点-17点预测17点到19点指定路线平均行驶时间和收费站车流量。

1. 数据预处理

A.异常数据剔除,缺失数据如果较少采用平均值填充

由于训练集包括国庆7天车流量异常大,数据相对非节假日异常,故剔除;

针对任务1:训练数据为7月19日到9月17日,去除国庆7天;采用滑动窗构建训练集和验证集,其中7天为一个窗构建验证集;

A. 使用最后1-7天作为验证集,之前的作为训练集
B. 先前滑动一天,即2-8天作为验证集,之前的作为训练集
C. 以此类推,构建足够的验证集

针对任务2:训练数据为9月17-10月17,除开国庆一周共四周数据,采用4折交叉验证,每次取一周为验证集,其他是训练集。

2. 特征工程

A. 属性识别特征one-hot

道路ID,收费站ID,进出站ID,时间窗ID等等;

B.时间特征分为短期特征和长期特征,与统计特征连用

周几,是否为周末,时间点(小时、分钟),是否为高峰期等等;

C.天气特征离散化之后进行one-hot

风速,空气湿度,温度,风向,降水量,海水压力,天气是否异常等

D. 道路特征

道路长度,宽度,道路行车道数目,前后连接顺序,前后连接道路的宽度与长度

E.时间和车流量特征

预测时刻前2小时数据,20分钟窗内中平均行驶时间和车流量的统计特征,统计特征包括:最大值,最小值,平均值,中位数,标准差,偏度(三阶矩),峰度(四阶矩)等等,

F. 交叉特征

道路与车辆特征交叉,比如每条道路的车流量/道路容积;
窗统计量之间的交叉特征,比如不同窗特征的叠加,差分,比率,乘积等等加减乘数征;

*对于交叉特征,移除低方差特征,利用树模型提取特征的重要性,取top取重要性高的交叉特征。

五.总结

1. 关注数据分布,如数据的变化趋势和噪声数据
2. 建立科学的交叉验证集
3. 考虑偏差和方差均衡,偏差衡量模型准确性,方差衡量模型稳定性,偏差难以降低时可考虑降低方差
4. 合理理解评价指标,采集合理有效的损失函数

相关文章: