其实,上述问题可以抽象为一个MAB问题(Multi-armed bandit problem),中文译名叫做多臂赌博机问题。顾名思义,它最初起源于赌场,即一个赌徒进入赌场后,有多台老虎机,每台老虎机赢钱的概率是不一样的,如何知道每台老虎机赢钱的分布,并制定一个最大化收益的策略呢?
为了解决这一问题,可以尝试使用Bandit算法。Bandit算法其实是一类算法的统称,基本思路可以归纳为两点:
受限于篇幅的原因,本文只介绍一种常见的Bandit算法:汤普森采样算法。它的原理是:在候选池中,选择每个物品产生的收益都遵循一个单独的概率分布,每次选择时,让每个物品的概率分布随机产生一个数,最后推荐那个随机数最大的对应的物品。
往期推荐
本文来自微信公众号“网易雷火UX用户体验中心”(ID:LeihuoUX)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。