2019知乎看山杯总结——12/706

研二上学期已步入尾声，回首望去，知乎看山杯可以说是我这学期的主线了，历经近四个月的赛程，今天早上8点封榜，名次是12/706。

一比赛简介

二数据分析

一比赛简介

前排大佬tql。。。A榜第9、B榜登顶的test大佬、kaggle master chizhu大佬、鱼佬。【lpl总冠军】也是破邮的队伍，其中Clitost是2019搜狐算法大赛的冠军（emmm我这个菜鸡又拉低破邮平均水平了）。

二数据分析

三特征工程

四模型

五总结

1 收获

（1）第一次使用lgb/xgb

（2）第一次做特征

深切体会到了比赛与科研的不同，平时看的论文里各种花里胡哨的模型，在比赛里用处并不大；而找到一个强特征，则能飞速上分。 count ratio ctr cvr

引用林有夕林大佬在开源代码中的赠言：

良好的阶段性收获是坚持的重要动力之一

2 不足

（1）代码复用性差

代码写的乱，构造特征流程繁琐，应该封装为模块，方便后续使用，否则会耽误大量时间。

（2）实验记录乱

特征、参数的对比实验太多很乱

（2）不够严谨

根据之前线下验证的结果，lgb和xgb均值融合会有两个千的提升，于是昨晚睡前运行了xgb 5折的代码（因为全量数据xgb速度很慢），准备早起融合一波。但是由于没有仔细考虑代码，导致使用xgb跑五折时在夜里运行过程中出错，无法超越第11名。

不过没有关系，反正超越了也没什么意义，前十的队伍可以受邀去颁奖现场，那么11和12并没什么差别，何况我跟第10名的差距还是挺大的（6个千）。

上天对我还算仁慈，让我是12名。要是前面少一个队，我就差这么一丢丢分数就能到第10名，那就太可惜了，自己必然又是一番【意难平】。

不过后来咨询主办方，没有进前十的队伍也可以去现场旁听，那倒损失不太大，可以去学习一波。

（3）心态

比赛历时近四个月（中间还延长了一次），导致战线拉得很长，在尝试各种特征上分无望后，后期明显动力不足。
从大学时的蓝桥杯、去年的知乎用户行为预测比赛、暑期的研创比赛，到这次看山杯，发现自己心态特别差。这些比赛是自己用心去做了的，投入很多，但是结果却不尽人意，挫败感油然而生，以后就不愿再碰这些东西。正如安妮宝贝的句子：

仿佛是蜕下来的旧壳，余留着创口的血液热气和温度，只有自己能够看见。换上新躯壳的人，对它们有一种羞耻之心。也无留恋。

一 比赛简介

二 数据分析

三 特征工程

四 模型

五 总结

1 收获

（1）第一次使用lgb/xgb

（2）第一次做特征

2 不足

（1）代码复用性差

（2）实验记录乱

（2）不够严谨

（3）心态

一比赛简介

二数据分析

三特征工程

四模型

五总结