个性化推荐系统 5 层级别

|| 导读
主题：个性化推荐系统 5 层级别
阅读时间：约 3800 字，阅读时间预计 5 分钟
作者：马林

阅读收获：
1）个性化推荐系统简介；
2）个性化推荐系统 5 层级别的特点介绍，实践中如何运用个性化推荐。

00
背景

个性化推荐对产品越来越重要，随着产品功能叠加、用户需求多元化，及流量红利殆尽获客越来越难，每个产品都在千方百计的扩大增长、提升留存。
最早的亚马逊、现在的抖音，都将个性化推荐深度地融入产品体系中，使用户沉浸在自身产品的生态闭环中。

使用个性化推荐技术，可以帮助我们的产品：
1）有效辅助提高用户增长，当有新用户到达时，根据用户特点个性化推荐对应内容，以赢得用户好感降低流失；
2）提高用户留存，根据用户行为和特点，针对性推荐内容或推送（注意：推荐是技术，推送是方式或渠道），延长用户在 PLC 内留存（Product Life Cycle，即产品生命周期）；
3）召回沉寂用户，通过推送个性化内容，以内容作为诱饵吸引用户再次激活产品；
4）降低产品推广成本，通过以上几种手段，对用户展开精细化运营，相对于粗放式的广告投放买量效果更好。

本篇讲解个性化推荐系统 5 层级别，大家可根据自身产品状况、公司资源情况合理采用。

01
Level 1：基础文案或信息，基于特定的场景推荐

基础文案或信息的形式，有点像早期产品中的欢迎语信息，这种方式实现成本非常低但其推荐效果并不好。
例如：当用户早上打开产品时，“早上好，User”，今天是某个特定的节日：“祝 User 节日有个好心情”等；或者在用户生日等特殊日子以获得特别优惠（信用卡生日刷卡双倍积分）等。

有时为更好的突出产品友好性，也会借助图形或 Widget，比如：iPhone 桌面天气（天气会根据实时状况变化），Windows 资讯等。

02
Level 2：用户信息，基于用户信息针对性推荐

在当前层级进行个性化推荐，首先要了解你的用户，尽量多收集用户的信息（数据）并进行分析，之后再针对性地采取个性化推荐策略。
当然，我们的初衷是尽量多收集用户信息，但是，获取信息需要经过用户同意或者采取更多技术手段，此时，我们可以先从基础的数据入手。

1）位置：较容易的获取大概的位置（城市 / 地区），从不太准确到精确的结果：货币、设备语言、SIM 卡信息、IP 地址、WiFi 名称、电话从属地理位置等。
2）设备类型和浏览器：根据产品自身特点，很容易判断用户使用 PC 或 APP，安卓或 iOS 设备，浏览器版本信息等。
3）用户行为：微信朋友圈点赞，让短视频 Feed 上滑滚动，将商品加入购物车，关注某个 KOC 等，这些简单的行为可以告诉我们用户对产品中哪些内容感兴趣。

像百度为提升搜索结果体验，用户每次点击、每个行为都会被跟踪，甚至为每个 User 建立多达 200 项的数据维度，以分析用户本次搜索后下次会搜索什么内容。

03
Level 3：内容过滤，基于特定内容过滤

基于内容的过滤是将产品内容进行分类，例如：Spotify 有“迪斯科”或“摇滚”类别，Netflix 有“恐怖”或“喜剧”类别，而亚马逊有“电子产品”或“图书”类别，腾讯视频有“电影”或“纪录”类别（注：Spotify 是全球最大的正版流媒体音乐播放平台，其特点就是个性化推荐，网易云音乐的推荐方式与其相似）。

Spotify 使用自然语言处理技术 (Natural Language Processing )来分析处理用户写在文章、文章和关于特定艺术家的评论中的大量数据，追踪用户对这位艺术家的评论、用户对其他艺术家的评论，以及其他可能被提及的歌曲。通过这些数据信息，系统识别描述性术语、名词和短语，并将它们与特定的艺术家或歌曲相关联，从而实现精细化的推荐。

基于内容的过滤，如果你的用户参与了这些类别中的一个，可以很容易地突出显示与你的用户正在寻找相似的内容、或相似内容的其他用户。在实践中，这种方式很容易实现，但这种方式有可能会造成内容类别的烟囱效应（烟囱效应：引用建筑行业词语，比作用户只查看自己关注的垂直内容，轻易不会再跳出关注其他内容从而在关注的内容里越来越深，此种情况不利于用户打破内容圈层）。

注意冷启动问题：当使用内容过滤方式时，“冷启动”意味着你对用户了解不够，无法提供可能的最佳结果（因为此时你的用户数量不够多，用户行为不够多，积累用户行为的数据就不够多）。此时最佳的补救方法，新用户打开产品后让他们选择感兴趣的主题“偏好”，将偏好作为基础数据进行推荐计算。

04
Level 4：协同过滤

协同过滤是目前最常用的方法。Netflix 的推荐系统中，通过分析观看这部电影的其他用户也观看了哪些电影，来预测用户可能喜欢哪些电影，并且在制作拍摄电影时也依据用户行为作为参考指标，这些是为突出来自具有相似品味用户的内容。

国内的产品中，像豆瓣、网易云音乐、QQ Music、抖音等产品，都采用了类似的推荐模型。如果建立推荐模型，建议与数据分析师、数据算法专家合作，构建基于协同过滤的推荐模型，他们在数据建模上更专业。

协同过滤背后的思想简单深刻，在万物互联的今天，协同过滤的威力更加强大。协同过滤看上去是一种算法，不如说是一种方法论，不是机器在给你推荐，而是 “集体智慧” 在给你推荐。

05
Level 5：Bandit Models（Bandit 算法）

Bandit 算法来源于历史悠久的赌博学，它要解决的问题是：一个赌徒要去摇老虎机，走进赌场一看，一排老虎机，外表一模一样，但是每个老虎机吐钱的概率并不一样，他不知道每个老虎机吐钱的概率分布是什么，那么每次该选择哪个老虎机可以做到最大化收益呢？这就是多臂赌博机问题 ( Multi-armed bandit problem, K-armed bandit problem, MAB )。
解决这个问题最好的办法是去试，但不是盲目地试，而是有策略地快速试一试，这些策略就是 Bandit 算法。

|| Exploration and Exploitation( EE问题，探索与开发) 是计算广告和推荐系统里常见的一个问题。
|| Exploitation：对用户比较确定的兴趣，当然要利用开采迎合，好比说已经挣到的钱，当然要花；
|| Exploration：光对着用户已知的兴趣使用，用户很快会腻，所以要不断探索用户新的兴趣才行，这就好比虽然有一点钱可以花了，但是还得继续搬砖挣钱，不然花完了就得喝西北风。

用户冷启动问题，也就是面对新用户时，如何能够通过若干次实验，猜出用户的大致兴趣。
用 Bandit 算法解决冷启动的大致思路如下：用分类或者 Topic 来表示每个用户兴趣，也就是 MAB 问题中的臂 ( Arm ) ，我们可以通过几次试验，来刻画出新用户心目中对每个 Topic 的感兴趣概率。
这里，如果用户对某个 Topic 感兴趣（提供了显式反馈或隐式反馈），就表示我们得到了收益，如果推给了它不感兴趣的 Topic ，推荐系统就表示很遗憾 ( Regret ) 了。如此经历“选择-观察-更新-选择”的循环，理论上是越来越逼近用户真正感兴趣的 Topic 的。

根据以上描述，以抖音为例我们来分析它推荐的逻辑：
1，当你观看某种类型的视频，抖音会继续给你推荐某类视频，如果你点赞或者评论了，那么会持续给你推荐该类视频（即 Exploitation）；
2，此时为了避免烟囱效应（为什么要避免烟囱效应，抖音头部有 1% 的内容被 99% 的用户观看，大量腰部以下的 99% 内容无人观看，要扩大用户的观看效应），当你在观看某类视频时，抖音会适时的插入某类视频（即 Exploration），如果你观看完毕那么系统会在几次视频后继续推送插入的类视频；如果你快速滑过、或者点击了 Diss，那么抖音就不再推送插入的类视频；
3，对于新用户在冷启动时，抖音会根据大部分用户观看的热门内容向新用户推荐视频，如果用户快速滑过或 Diss，那么抖音会继续测试用户可能感兴趣的内容（即 Exploration）。

06
注意事项

数据安全：任何数据收集、分析和使用，都是极其敏感重要的事情，一定要与法务部门协作并确认数据的收集和使用，并时刻关注相关的法律法规，如《国安法》，《数据安全法》，《GDPR》等。
见无处不在：多样性让我们的产品变得强大，因此推荐内容需要团队内保持不同观点、不同文化背景以更加了解用户。
过滤泡沫：推荐可以将用户范围缩小到单一的想法或产品，定期向用户突出显示不同的观点或想法，避免烟囱效应。
接收反馈：允许用户对你的推荐提供反馈，这将给团队带来巨大的洞察力，了解哪些方面可以改进。

参考资料：
Guillaume Galante - 《5 levels of product personalization: an intro to recommender systems》，https://uxmag.com/articles/5-levels-of-product-personalization-an-intro-to-recommender-systems
陈开江 - 《Bandit 算法与推荐系统》，https://cosx.org/2017/05/bandit-and-recommender-systems/
Logic - 《Bandit 算法笔记》，https://zhuanlan.zhihu.com/p/80261581

欢迎加入 ThinkerD 社群，超过 300+ 热爱产品、热爱设计的小伙伴们，参与讨论互相学习一起进步。（关注公号回复消息：【社群】）

欢迎关注支持 ThinkerD 本公众帐号，点赞、转发、再看以帮助更多的朋友们。

本文来自微信公众号“in ThinkerD”作者：ThinkerD（ID：ThinkerDesign）。大作社经授权转载，该文观点仅代表作者本人，大作社平台仅提供信息存储空间服务。