Skip to content

Latest commit

 

History

History
119 lines (50 loc) · 2.83 KB

阿里-粗排体系与最新发展.md

File metadata and controls

119 lines (50 loc) · 2.83 KB

粗排体系与最新发展

来自 王哲-阿里定向广告算法团队

大纲:

  • 粗排发展历史
  • 粗排最新进展
  • 总结和展望

何为粗排:

工业界使用的多级级联架构

粗排目标: 在满足算力rt约束的情况下,选出满足后链路(精排和重排)需求的集合

粗排和精排的比较:

  • 算力rt约束:粗排打分量远高于精排,同时有较严格的延迟约束:10-20ms
  • 解空间问题:粗排线上打分的候选集更大,面临更严重的选择偏差问题。 ----------- 粗排遇到的样本和线上实际曝光样本可能差别很大,精排样本间的差异性会小很多

粗排技术路线

即从前后链路视角来看:

从召回角度看- 集合选择技术

从排序角度看- 排序预估方案

image-20210206165752826

多通道:即和召回一样,依据目标多路选择, 最后合并在一起

粗排发展历史

粗排的前深度学习时代

image-20210206171402125

粗排的深度时代-向量内积模型 (2016)

youtube-dnn

image-20210206171702822

向量内积模型(双塔模型)的局限:

  • 无法利用交叉特征
  • user,item向量提前计算 实时性差
  • 冷启动问题 (无法提前得到 向量表达)
  • 迭代效率(需要迭代user,item向量 量级较大 模型天极更新) 以及同步性的问题 版本不一致

image-20210206171912132

向量内积模型的改进-向量版Wide&Deep模型(2019)

即直接增加wide部分单独处理交叉特征deep部分任然要求双塔模型

image-20210206172504828

向量内积模型的改进-实时化(2019)

user部分 不再是读离线表, 而是 引入部分实时信息 线上实时产出 引入实时打分

ad部分 更新频率提高

image-20210206172852976

粗排最新进展- 阿里COLD粗排框架

论文- Wang, Zhe et al. COLD: Towards the Next Generation of Pre-Ranking System. DLP-KDD 2020

模型结构

image-20210208102300528

SE block 仅用于特征筛选, 选择重要性高的特征

最终模型是7层全连接网络

以及结构化剪枝 减小模型复杂度

image-20210208102714088

COLD进一步发展

image-20210208220831018

展望

仍然是两种路线的选择:

image-20210208221543432