京东推荐广告算法彭长平：京东电商推荐系统做到60分容易，做到80分、90分却很难

互联网发展至今，推荐系统无处不在，它也成为了许多电商平台的收益引擎。亚马逊称，其收入 40% 来自个性化推荐系统，而京东的个性化推荐系统也为公司带来了非常大的收益。随着推荐系统在信息分发中作用越来越重要，我们也在探究大规模机器学习、深度学习等技术在京东的商品搜索和推荐中是如何应用的，以及一个高效、有价值的推荐系统应该满足哪些条件等问题。

优质的推荐系统要具备哪些特点？

由于用户群、业务场景、地域和文化的不同，推荐系统千人千面，纷繁万变的细节当中，不同平台的推荐系统也各不相同。彭长平表示，相对于视频、资讯、直播等媒体内容平台，京东电商的推荐系统做到 60 分会比较容易，但要做到 80 分、90 分却很困难。

从框架上看，推荐系统都在做 User 理解、Item 理解和二者匹配，系统都有选品、召回、点击率预估、Rerank 重排序等环节。但电商推荐的困难在于以下三个方面：

第一、从 User 端看，内容资讯平台，用户的需求相对来说长期不变，内容的消费过程在线上完成。而购物需求的产生和消费过程都在线下，线上只是一个交易过程，线下的过程是难以追踪和数据化的，电商场景对用户需求的识别和激发挑战很大；

第二、从 Item 端看，内容资讯平台的内容生产者们，围绕同一个兴趣主题，可以日复一日地变着花样更新内容。购物场景中，如果用户已经购买，同类的商品就不能再推荐了，对拓展和激发用户的需求更高；

第三、从推荐系统希望用户做出的 Action 看，内容资讯平台的主要满足用户娱乐类需求，消费不合理推荐资讯的成本很低。而购物场景中，推荐系统期望用户点击、浏览，让用户种草甚至让用户花钱购买也是系统优化目标，如果 Item 质量差或推荐精准性不够，用户会抛弃平台的推荐功能，甚至从平台流失。

那么，一个高效、有价值的推荐系统需要具备哪些特点呢？彭长平认为，在用户没有主动需求表达的情况下，将用户喜欢的 Item 分发到其面前就算得上是好的推荐系统。这样的系统需要满足以下三个条件：

第一、是满足用户需求的，体现在用户愿意看，停留时间长上；

第二、是有成长性的，体现在能拓展用户兴趣、能带动优质的商品或者内容提供者成长、对新用户或新商家友好；

第三、是体现平台价值观的，推荐系统促进平台玩家的优胜劣汰。

要做到这三点，推荐系统需要做几方面的工作：一、从 User 行为反馈和 Item 信息中学习，让模型基于数据自适应的进行匹配；二、召回环节没有 silver bullet，需要使用多种不同类型的算法来做召回，各个阶段的模型都要有较强的泛化能力，对冷启动 User 和 Item 做定制优化；三、体现平台价值观的优化目标函数，大部分是多目标优化。

京东电商推荐系统的应用实践

推荐系统是一种信息过滤系统，用于预测用户对物品的“评分”或“偏好”，其目标是对用户感兴趣的商品或内容产生有意义的推荐。在充斥着海量信息和数据的互联网上，如果没有推荐系统，用户想获取有价值的内容就犹如大海捞针。推荐系统能通过对大量动态生成的信息进行搜索，为用户提供个性化的内容和服务，有效解决信息超载的问题。随着数字化信息和互联网访问者的爆发式增长，推荐系统显得比以往任何时候都要重要。

京东推荐系统发展到今天，主要经历了以下四个阶段：

一、满足用户需求阶段。在满足客户需求方面，最早的系统从搜索系统改造而来，将用户近期的浏览的商品理解为用户的需求，Item-based CF 是最主要的召回手段。

二、拓展用户需求阶段。在这个阶段召回上，无论从数据还是从算法角度，都是从尽可能多的角度去提升召回的丰富度，京东为此立了个项目叫“召回万花筒”，不断提升召回的多样性和覆盖率。在排序环节，优化目标从强调与用户匹配程度的点击率、转化率，到兼顾优化用户下拉深度、新颖性、多样性。

三、Session 全局优化与商家生态优化阶段。在进入此阶段后，京东的优化重点在 Rerank 环节，将用户在 Session 内的前序浏览行为视为一个完整的 List，Rerank 排序是一个 List 生成和 List 评估的过程，即优化 List 整体用户的浏览量和点击量。另一个方向是引入生态优化机制，模型量化用户和商品间发生一次交互，对用户和商家的长期价值，并将预估的量化价值引入到排序机制中。

四、跨用户群体与跨商家群体联合优化阶段。随着京东业务的发展，覆盖的用户群体从相对单一的群体拓展到了非常多元化的群体中，三到六线城市的用户占比已经超过六成，无论是京东 App 内，还是专为下沉市场定制的京东极速版、京喜，用户群的拓展、定制化新 APP 的高速增长，为千人千面的推荐算法提出了更大的挑战。这个阶段商品知识图谱、迁移学习等技术发挥了重要作用。

不同时期，京东推荐系统在提升推荐精准度、精细度和覆盖率等方面，也做了很多的努力。彭长平表示，要同时提升推荐系统几个看似矛盾的优化目标，需要从三个维度入手：召回算法多样化，从计算 User-Item Pair 级的优化转向 Session 级全局优化，护航优质商家成长的生态优化。京东从这三个角度做了以下工作：一、召回万花筒：从召回粒度上，我们在 User 和 Item 上都建立了粗细粒度不一的分层表征，从不同粒度去做二者的匹配。从召回算法上，Boolean Matching Model、Embedding-based Retrieval、Knowledge-based Retrieval 在我们的推荐结果都占有较大的比例。二、Session 全局优化：从单条推荐候选看，精准度和惊喜度是有矛盾的，而从最大化 Session 整体点击量的角度优化二者是统一的，即 CTR 模型从 Pointwise 转向了 Listwise。三、商家生态优化：新商家、新商品的质量分级和冷启动机制，有效的保障了其中优质部分在平台的曝光量和订单量。而源源不断的新商家入驻和新商品发布，是提升覆盖率和惊喜度的重要驱动力。

据彭长平介绍，京东平台上有许多子场景，每个子场景又有非常多的细分搜索和推荐，对于这些子场景推荐的联合优化，最主要用到的是迁移学习算法。每个子场景的用户行为都是不充分的，但每个场景下又有其独特的用户行为模式。京东联合使用主场景和多个子场景的数据进行模型训练，设计了一套多层的网络结构，让模型既能从主场景中迁移知识，也能从同类的子场景中迁移知识。通过迁移学习构建子场景的单个模型，能同时应用在京东 App、京喜 App、京东极速版 App、微信购物、QQ 购物等多个终端。

在各电商平台竞争日趋激烈的当下，如何吸引来更多的新用户并增加老用户的活跃度和平台粘性，是影响平台发展的关键因素，因此，推荐系统的不断迭代和升级就显得尤为重要。未来，京东推荐系统也会在导购类内容推荐、场景式推荐和生态优化机制这三个技术方向上进行优化。

从导购类内容推荐来讲，随着以直播带货为代表的电商内容化，京东平台已经积累了大批量内容生产者，他们生产的优质带货内容和商品一起成为推荐系统的候选 Item，不同类型的物料、不同的优化目标，对算法提出了更大的挑战，更丰富的内容也给用户带来了更好的”逛“和“买“购物体验。

从场景式推荐来讲，提到“逛”的体验，很多人对“宜家”门店的场景化布局深有感触。京东正在开发基于用户商品消费场景的理解，推荐场景所需要商品的全集合，并以更立体的方式呈现到用户面前，提供在线的场景化购物体验。

最后，从生态优化机制来讲，未来需要做的是，强化推荐系统内的商家优胜劣汰机制和优质新商家、新商品的成长机制。

技术难题及突破口

虽然说推荐系统已经很大程度缓解了信息过载的问题，满足了用户的个性化需求，但是目前仍有部分问题阻碍着推荐系统的发展。彭长平认为，这其中最大的困难还是“数据”的问题。具体体现在两个点上：第一、如何全面获取和快速处理数据；第二、模型如何能更高效地从海量数据中学习。

那么，在解决全面获取和快速处理数据问题上，要先分别弄清楚如何解决“全面”和“快速”的问题。“全面”，需要将每一个与用户交互的触点，线上、线下的全渠道数据融合；“快速”，需要以准实时的流式数据处理机制，提高数据到模型、以及模型参数更新的时效性。随着 IoT 终端的多样化和终端计算能力的提升，端计算和云计算结合，能进一步提升推荐系统对用户反馈的及时应对。

面对海量复杂的数据，我们既要提高模型系统的绝对算力、系统处理数据绝对量和 TB 级的复杂模型服务，也要提升模型结构对海量数据的适配度，在后一个问题上，彭长平表示更看好 AutoML 技术走向成熟，比如我们目前在 NAS 网络结构搜索工作上，效果已经追平了专业算法工程师长期调优的模型结构，不久的未来，相信就能取代调模型结构的炼金术师们。

彭长平认为：

工业界的推荐系统，没有单项的核心技术。推荐系统中算法占据主导、人相对被动，不管是用户还是商家，对算法出错的容忍度都很低，系统只有收集到尽可能全和尽可能高时效的数据、采用更高效的算法、打磨好每一个细节，用户和商家才会信任推荐系统。

随着技术的进步，衣、食、住、行、娱，每一个领域都将进入供过于求的状态。可以预见，随着 5G 和 IoT 的普及，人和电子设备打交道，会越来越依赖于推荐技术，甚至不是一套平台级的推荐系统，而是每个人在每一个领域，都需要一名个性化的推荐“助理”。

本文转自公众号：AI前线，作者李冬梅，点击阅读原文

推荐系统如何驱动业务增长

优质的推荐系统要具备哪些特点？

京东电商推荐系统的应用实践

技术难题及突破口

推荐阅读

目录