https://www.cnblogs.com/futurehau/p/6184585.html

数据 -》 预处理 -》特征抽取 -》模型训练 -》后处理

特征决定了达到好的评价指标的上限,模型决定了接近这个上限的程度。

2. 数据预处理

label匹配:展示日志和点击日志做一个join

采样: 负采样(广告点击率很低,随机丢弃一部分负样本

组合相关信息: 相关信息需要到别的文件中去找,所以需要组合相关信息。比如:如果需要查看某个query_id代表的是什么,需要去id号对应的txt中查询: cat queryid_tokensid.txt | awk '$1 == 14092{print $0}' | head

每次都这样操作会比较麻烦,所以需要直接把这些信息组合到训练数据中去。这就是数据预处理里面的特征组合:Join

 

相关文章:

  • 2022-12-23
  • 2021-11-04
  • 2021-09-01
  • 2021-11-06
  • 2021-07-23
  • 2021-08-04
  • 2021-05-15
  • 2021-12-10
猜你喜欢
  • 2021-09-10
  • 2022-02-09
  • 2021-12-30
  • 2021-10-28
  • 2021-08-01
  • 2021-08-07
  • 2021-07-28
相关资源
相似解决方案