研二上学期已步入尾声,回首望去,知乎看山杯可以说是我这学期的主线了,历经近四个月的赛程,今天早上8点封榜,名次是12/706。
目录
一 比赛简介
前排大佬tql。。。A榜第9、B榜登顶的test大佬、kaggle master chizhu大佬、鱼佬。【lpl总冠军】也是破邮的队伍,其中Clitost是2019搜狐算法大赛的冠军(emmm我这个菜鸡又拉低破邮平均水平了)。
二 数据分析
三 特征工程
四 模型
五 总结
1 收获
(1)第一次使用lgb/xgb
(2)第一次做特征
深切体会到了比赛与科研的不同,平时看的论文里各种花里胡哨的模型,在比赛里用处并不大;而找到一个强特征,则能飞速上分。 count ratio ctr cvr
引用林有夕林大佬在开源代码中的赠言:
良好的阶段性收获是坚持的重要动力之一
2 不足
(1)代码复用性差
代码写的乱,构造特征流程繁琐,应该封装为模块,方便后续使用,否则会耽误大量时间。
(2)实验记录乱
特征、参数的对比实验太多 很乱
(2)不够严谨
根据之前线下验证的结果,lgb和xgb均值融合会有两个千的提升,于是昨晚睡前运行了xgb 5折的代码(因为全量数据xgb速度很慢),准备早起融合一波。但是由于没有仔细考虑代码,导致使用xgb跑五折时在夜里运行过程中出错,无法超越第11名。
不过没有关系,反正超越了也没什么意义,前十的队伍可以受邀去颁奖现场,那么11和12并没什么差别,何况我跟第10名的差距还是挺大的(6个千)。
上天对我还算仁慈,让我是12名。要是前面少一个队,我就差这么一丢丢分数就能到第10名,那就太可惜了,自己必然又是一番【意难平】。
不过后来咨询主办方,没有进前十的队伍也可以去现场旁听,那倒损失不太大,可以去学习一波。
(3)心态
- 比赛历时近四个月(中间还延长了一次),导致战线拉得很长,在尝试各种特征上分无望后,后期明显动力不足。
- 从大学时的蓝桥杯、去年的知乎用户行为预测比赛、暑期的研创比赛,到这次看山杯,发现自己心态特别差。这些比赛是自己用心去做了的,投入很多,但是结果却不尽人意,挫败感油然而生,以后就不愿再碰这些东西。正如安妮宝贝的句子:
仿佛是蜕下来的旧壳,余留着创口的血液热气和温度,只有自己能够看见。换上新躯壳的人,对它们有一种羞耻之心。也无留恋。