沉浸流(或其它自动播放)视频产品

沉浸流是类似抖音首页、快手精选页那种无限下滑、一屏一视频的产品形态,特点是自动播放、用户对下一个item无感知、无晒选,曝光即播放,样本无明显正、负倾向。

Trick1

播放时长>阈值为正样本,否则为负样本,配合按观看时长长度分布以一定比例采样或调整样本权重。 适合沉浸流产品上线初期,以提升下滑数(与信息流广告潜力相关)和用户停留时长(场景用户留存相关)为主业务目标。

Trick2

按不同视频时长(或类目)做样本划分,在每个划分窗口内以播放完成率(play complete rate)为阈值切分正负样本,配合不同时长(类目)样本数比例进行采样或调权。 适合沉浸流产品上线中后期,以场景多元生态构建、兴趣拓展探索同时保证用户停留时长和广告收入为主目标。

瀑布流等点击跳转式产品

item以卡片形式存在,需要点击跳转到另一个页面消费。

Trick1

点击行为正样本以客户端为准。 由于产品形态特性,用户浏览速度快,点击行为难预测,一般节省资源不进行预加载。因此弱网环境下(如地铁、电梯)信号丢失导致跳转或加载失败,服务端可能缺失请求日志。但用户是对这个item感兴趣才会有点击行为,所以要以客户端缓存的行为日志为准,和服务端日志对齐互补。

Trick2

无点击session过滤。 用户一次会话中,一次点击行为都没发生的会话,并不适合作为负样本。曝光样本一般都是场景高热度或系统推荐的兴趣较为相关的样本,直接判定为负样本容易造成模型对用户兴趣捕捉的漂移。

Trick3

假曝光过滤。 用户会话结束位置的未完全曝光卡片、用户快速划过的卡片,可以不作为负样本。

Trick4

样本去重去噪。 客户端多次上报的同一卡片曝光、消费,可能是客户端缓存造成,而不是真实的多次消费。可以通过与服务端请求的时间戳对齐等方式去噪。

Trick5

按曝光位置、卡片大小反向采样、调权。 曝光位置靠前的天然点击率高,卡片大的比小的天然高。

通用样本处理策略

产品形态不同的时候,也有通用的样本处理策略。

Trick1

按用户活跃度筛选样本。 高活用户行为丰富,低活、回归、新用户行为稀疏,同一套特征体系无法对两者都友好。高活用户样本应该单独建模,低活用户应该配合用户增长策略、生态建设联动优化。 高活用户可以通过多个场景、产品相关的重要统计类特征的覆盖率来区分。

Trick2

调权优于采样。 调整样本权重产生不同的梯度贡献,本质上和采样的期望效果一致。但采样对用户的长尾兴趣、item库内长尾类目不友好。没有计算资源压力的前提下不建议采样。

Trick3

focal loss解决hard sample mining。 hard sample mining对推荐系统同样重要。如果不知道怎么找准对应场景的困难样本,同时暂时也还在用交叉熵做二分类loss的话,可以无脑迁移focal loss。