1. 简介
DeepCrossing是2016年提出的模型。
对于web-scale, 特征数量大,如何自动组合特征生成高阶特征是一个问题。
2. 模型
2.1 数据
在搜索广告任务中,有大量的原始特征,每个原始特征都用一个向量表示,原始特征包括:
(1)用户 query:用户搜索文本;
(2)广告主竞价 keyword:广告主的竞价关键词;
(3)广告Title:广告的标题文本;
(4)MatchType:广告主指定的关键词匹配类型。分为exact,phrase,broad,contextual.
(5) CampaignID:营销campaign的ID。
由于广告系统中可能有百万级的campaign, 经过one-hot后campaign特征维度非常高。解决的方法:
使用一组特征来描述 campaign特征。
- campaignID 特征:进行one-hot, 但是,one-hot向量仅仅包含点击次数最多的10000个campaign的ID,剩余的分配到10001个slot。
- CampaignIDCount特征:对应分配到10001个slot的剩余campaign,提供每个campaign的统计特征,如曝光次数,平均CTR等。该特征是计数特征counting feature.
2.2 模型
模型有4种类型层:
(1)Embedding Layer:
把原始的特征映射成Embedding向量。
假如原始特征one-hot向量为 x , 对于一个field:
(2)stacking Layer:
所有Embedding特征和部分原始特征拼接成一个向量:
(3)残差Layer
(4)scoring Layer:sigmoid的输出层
模型结构:
模型的损失函数:
2.3 模型效果
和DSSM模型相比:
评估指标AUC,以DSSM的结果为基础进行归一化
参考: