Ctr模型一些Trick
文章目录
沉浸流(或其它自动播放)视频产品
沉浸流是类似抖音首页、快手精选页那种无限下滑、一屏一视频的产品形态,特点是自动播放、用户对下一个item无感知、无晒选,曝光即播放,样本无明显正、负倾向。
Trick1
播放时长>阈值为正样本,否则为负样本,配合按观看时长长度分布以一定比例采样或调整样本权重。 适合沉浸流产品上线初期,以提升下滑数(与信息流广告潜力相关)和用户停留时长(场景用户留存相关)为主业务目标。
Trick2
按不同视频时长(或类目)做样本划分,在每个划分窗口内以播放完成率(play complete rate)为阈值切分正负样本,配合不同时长(类目)样本数比例进行采样或调权。 适合沉浸流产品上线中后期,以场景多元生态构建、兴趣拓展探索同时保证用户停留时长和广告收入为主目标。
瀑布流等点击跳转式产品
item以卡片形式存在,需要点击跳转到另一个页面消费。
Trick1
点击行为正样本以客户端为准。 由于产品形态特性,用户浏览速度快,点击行为难预测,一般节省资源不进行预加载。因此弱网环境下(如地铁、电梯)信号丢失导致跳转或加载失败,服务端可能缺失请求日志。但用户是对这个item感兴趣才会有点击行为,所以要以客户端缓存的行为日志为准,和服务端日志对齐互补。
Trick2
无点击session过滤。 用户一次会话中,一次点击行为都没发生的会话,并不适合作为负样本。曝光样本一般都是场景高热度或系统推荐的兴趣较为相关的样本,直接判定为负样本容易造成模型对用户兴趣捕捉的漂移。
Trick3
假曝光过滤。 用户会话结束位置的未完全曝光卡片、用户快速划过的卡片,可以不作为负样本。
Trick4
样本去重去噪。 客户端多次上报的同一卡片曝光、消费,可能是客户端缓存造成,而不是真实的多次消费。可以通过与服务端请求的时间戳对齐等方式去噪。
Trick5
按曝光位置、卡片大小反向采样、调权。 曝光位置靠前的天然点击率高,卡片大的比小的天然高。
通用样本处理策略
产品形态不同的时候,也有通用的样本处理策略。
Trick1
按用户活跃度筛选样本。 高活用户行为丰富,低活、回归、新用户行为稀疏,同一套特征体系无法对两者都友好。高活用户样本应该单独建模,低活用户应该配合用户增长策略、生态建设联动优化。 高活用户可以通过多个场景、产品相关的重要统计类特征的覆盖率来区分。
Trick2
调权优于采样。 调整样本权重产生不同的梯度贡献,本质上和采样的期望效果一致。但采样对用户的长尾兴趣、item库内长尾类目不友好。没有计算资源压力的前提下不建议采样。
Trick3
focal loss解决hard sample mining。 hard sample mining对推荐系统同样重要。如果不知道怎么找准对应场景的困难样本,同时暂时也还在用交叉熵做二分类loss的话,可以无脑迁移focal loss。
Author 退市
LastMod 2022-08-23