0
点赞
收藏
分享

微信扫一扫

【笔记】推荐系统CTR模型数据正负样本准备


www.zhihu.com/question/324986054

1

在feed场景中,使用曝光(展示)日志时,应该选择APP的SDK埋点的日志,而不是服务器Web接口返回的日志,因为Web接口返回的日志中的后果是会增加很多无效的负样本。举个例子,Web接口每次返回10条数据,但是APP屏幕最多只能展现3条数据,剩下的7条数据需要用户在feed中滑动屏幕后,才算真正的曝光,但很多用户可能并不会滑动屏幕或者滑动屏幕幅度较小,导致剩下的7条数据并未真正在APP上曝光

2

针对同一个内容在不同时间对同一个用户曝光多次的情况,这时候训练集中可能会出现同一用户对同一内容点击与不点击并存的情况,如果多次曝光的间隔非常短,考虑只使用其中的一次曝光数据。

3

根据 youtube 的早期论文中描述,他们为了避免高度活跃用户对loss的影响,在训练集中对每个用户提取相同数量的训练样本

4

根据《美团机器学习实战》书中所说,它们在 feed 场景中采用了Skip Above的方式来提高效果。具体来讲就是根据用户最后一次点击行为的位置,过滤掉最后一次点击之后的展示,可以认为用户没有看到,也可以保留最后一次点击之后的少数几个。


举报

相关推荐

稳压deepfm的CTR模型

0 条评论