隐形反馈数据集上负样本采样原则

  • A+
所属分类:数据科学 机器学习
隐形反馈数据集上负样本采样原则

article_img

对负样本采样时应该遵循以下原则:

    • 对每个用户,要保证正负样本的平衡(数目相似) 。
    • 对每个用户采样负样本时,要选取那些很热门,而用户却没有行为的物品。

一般认为, 很热门而用户却没有行为更加代表用户对这个物品不感兴趣。 因为对于冷门的物品,用户可能是压根没在网站中发现这个物品,所以谈不上是否感兴趣。
下面的Python代码实现了负样本采样过程2:

在上面的代码中,items_pool维护了候选物品的列表,在这个列表中,物品i出现的次数和物品i的流行度成正比。items是一个dict,它维护了用户已经有过行为的物品的集合。

LTXU

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: