搜索广告CTR预估

数据 -》预处理 -》特征抽取 -》模型训练 -》后处理

特征决定了达到好的评价指标的上限，模型决定了接近这个上限的程度。

2. 数据预处理

label匹配：展示日志和点击日志做一个join

采样: 负采样（广告点击率很低，随机丢弃一部分负样本

组合相关信息: 相关信息需要到别的文件中去找，所以需要组合相关信息。比如：如果需要查看某个query_id代表的是什么，需要去id号对应的txt中查询: cat queryid_tokensid.txt | awk '$1 == 14092{print $0}' | head

每次都这样操作会比较麻烦，所以需要直接把这些信息组合到训练数据中去。这就是数据预处理里面的特征组合：Join