强化学习终于走出游戏区,跨过产业落地的第一道门槛。
文 | 刘景丰
编辑 | 甲小姐
什么是智能?
人的智能,不仅来自眼睛的看,耳朵的听,更重要的,是大脑的决策。无数看不见摸不着却时刻都在发生的决策,推动着我们将思维转化为一言一行,让人类真正有能力和现实世界交互。
美剧《复仇者联盟3》中有一个画面:在复仇者联盟即将与灭霸进行大战前,奇异博士用时间宝石推进了时间,浏览了未来这一战可能出现的结果,预测到在14000605种结果中,只有一种是获胜的结果。这是一种高级的智能。
商业的智能,不仅需要感知智能,认知智能,更重要的,是决策的智能。伴随着时刻发生的亿万用户的海量需求,企业要短时间内做出大量决策——研发环节如何减少试错成本,制造环节如何减少迭代次数,营销环节如何提升投放效果,此外还有电商平台如何给不同用户动态推荐产品,网约车平台如何给不同司机动态派发激励,物流仓储平台如何更快地拣选货物……决策时刻都有需求,显然,很难靠人力去实现大数据和个性化时代数以亿计的决策需求。
如今,机器可以比人看得更清,算得更快,但让机器取代人来直接做决策,一直是人工智能的挑战高地。
如果只看机器取代人做决策,这早已不是新鲜事儿。在游戏环境中,机器的决策能力已超越人类。2016年,AlphaGo打败人类顶级棋手李世乭;2019年,DeepMind Alpha Star在《星际2》中击败了99.8%的人类玩家。时隔多年,“AlphaGo们”仍没有走出游戏虚拟区——在真实环境里,AI的决策能力仍未大放光彩。
为什么在科技突飞猛进的今天,AI的决策能力——智能决策——仍难在真实场景中发挥作用?阻力在哪里?如何打破这一瓶颈?
一家位于南京的AI企业,通过自己的实践,为这些待解之题提供解题思路。
2021年1月9日,南栖仙策在南京发布旗下新一代智能决策系统REVIVE。其最大的特点是,让强化学习通过一套通用流程就能在现实业务场景中应用,目前已探索出从研发、生产、物流到营销等多个制造业环节的落地场景。
脱胎于南京大学人工智能学院的南栖仙策,是一家专注于智能决策的人工智能新锐公司,公司的核心能力便是通过推演亿万种结果,找到通向未来的最优决策,进而提供现实世界自主决策系统。
值得一提的是,南栖仙策并非按传统数据挖掘的方式做大数据预测,而是根据数据模拟成环境,让机器具有“想象能力”,并在此基础上根据目标寻找最优的策略。
换句话说,南栖仙策正把“AlphaGo们”从游戏搬到现实应用中。
更重要的是,比起近些年AI落地场景的“需求真伪”和“市场大小”之争议,智能决策是各行各业古已有之的需求,而智能决策供给端终于出现了突破口。
如果一切实践顺利,一个由智能决策驱动的大时代将开启。比起摄像头让机器看见,语音助手让机器听见听懂,智能决策,将开启一个更大的全面智能时代,商业将真正进化到下一阶段。
1.时代呼唤智能决策
对于2020年的“双11”,人们或许仍记忆犹新。在“双11”期间(11月1日-11月11日),近8亿消费者在天猫累计下单了4982亿元,订单峰值高达至58.3万笔/秒。截至11日24时,天猫“双11”实时物流订单也突破23.21亿单,约等于2010年全国快递量总和。
这串让人震撼的消费数据背后,隐藏着玄机。
表面上,用户在天猫上通过关键字搜想要的商品是“主动”行为,实际其浏览的每个商品,都是平台根据其喜好、需求精准推荐的。
将每秒数十万的商品进行个性化推荐,如果让人类去决策,可能仅耗费的人力就要数万之众,此外针对每个用户的需求作分析也需要一个过程,对普通人而言,一秒之内也很难做出准确的决策判断。
但机器就可以轻易完成。
真实的情况是,用户在天猫通过关键字“搜索”商品行为的背后,他第一眼会看到什么、在第一次点击之后再给他看什么,类似这样的决策其实都是机器自主完成的。用户看到的一切其实都是通过数据智能的算法自动形成的,不存在任何人为干预。
这个案例,恰对应了阿里巴巴集团总参谋长曾鸣在其著作《智能商业》一书中总结的“智能商业”三个特征:实时服务海量用户,满足每一个用户的个性化需求,服务自我更新与提升。
电商,和订单配送、出行打车、信息推送、自动驾驶等等众多场景共同组成了智能商业,这是一个数万亿级别的市场。
曾鸣断言,基于数据智能的商业必将超越1913年横空出世的福特流水线,给人类整体的生产力带来一次根本性的巨大突破。
在当下的时间点看,疫情倒逼着企业加速数字化,人工智能推动着产业加速智能化,两者共同推动商业智能的到来。近日,腾讯研究院发布的《2020腾讯人工智能白皮书》中就提出,人工智能技术与产业发展正在迈向“泛在智能”时代,未来中国不再有纯粹的传统产业,每个产业或多或少都将开启数字化进程。
智能商业下的每一个场景,都面临大量的服务决策需求,且动辄百万量级、千万量级,且要求决策实时完成,靠原来人力决策的方式根本无法满足这一需求。在巨大需求之下,一种新的决策手段诞生了——智能决策。
实际上,目前人们对智能决策并没有准确的定义。一种解释认为,智能决策是综合了人工智能(AI)、商务智能(BI)、决策支持系统(DSS)、知识管理系统(KMS)、专家系统(ES)以及管理信息系统(MIS)的辅助决策支持系统,其本质还是通过改进决策流程,用大数据的方式辅助决策。尽管这种决策方法已经在现实中有了较多的落地应用,但其最终还需要决策者自己“拍脑袋”,因此天花板较底。
智能决策的另一种解释则简单得多——决策自动化,或决策机器人。南栖仙策联合创始人、CTO秦熔均将其本质概括为“让机器自主决策”。它背后则涉及一种时下热门的硬科技——强化学习。
这一复杂的人工智能技术,可使机器自主完成从采样到学习的过程,进而自主决策。
理论上,这种技术可自主决策,不再需要决策者去“拍脑袋”。然而,这一跟人工智能概念几乎同时期诞生的智能决策理念,在很长一段时间内,只能在游戏中展示和应用。当人工智能发展到今天,大众对智能决策的期待早已不是局限在虚幻的游戏世界,而是如何在真实环境中解决问题。
“我们更愿意说‘智能决策’,而不是‘决策智能’,就是希望强调自主决策能力的应用。”秦熔均对「甲子光年」表示。
2.走出游戏区
强化学习诞生以来,就一直通过游戏来展示自己的能力。从1997年前国际象棋世界冠军卡斯帕罗夫被IBM的深蓝(Deep Blue)计算机击败,到2016年AlphaGo战胜世界顶级围棋棋手,20年间强化学习的智能决策本领接连在不同游戏中超越人类,但问题是,它仍未摆脱游戏环境。
强化学习走不出游戏区,是有原因的。
其中一个原因是,强化学习需要了解决策后果,而很多情况下这只能在决策执行后看到,因此强化学习需通过“试错”来完成学习。
本质上看,象棋、围棋等游戏都属于封闭环境,具有清晰明确的运行规则,可在计算机中以100%的精度模拟。因此该环境下的强化学习试错数据几乎是免费获得。唯一的开销只是支撑计算机运行的电力。
而真实业务场景是开放环境,环境运行规则不明。一旦试错会产生巨大的代价,轻则商业客户流失,重则发生致命危害,如自动驾驶事故等。
如何既用深度学习发挥智能决策的巨大价值,又降低开放环境中的试错成本?这个“鱼与熊掌”难题,曾困扰着许多强化学习研究者,其中就包括俞扬。
从2004年进入南京大学周志华教授的LAMDA研究组求学,俞扬在人工智能领域已有超过15年的研究经历。2011年,俞扬在周志华教授指导下获得南京大学博士学位,研究方向正是机器学习。此后,俞扬集中在强化学习理论与应用技术领域的研究,并于2018年获聘南京大学人工智能学院教授。
对强化学习了解越深,俞扬对“让强化学习走出游戏”的想法就越强烈。
转机出现在2016年底。AlphaGo的光彩闪耀,让互联网头部企业看到强化学习的巨大价值,并希望拓展应用。随后,淘宝搜索组找到俞扬博士,希望进行一项校企合作项目。
这个项目是“如何在淘宝上创建搜索和推荐的模拟器”。
此前,淘宝面临的问题正是强化学习的“老大难”——在商品搜索和推荐决策中的使用成本过高,无法真正落地。
2017年,在与淘宝搜索团队讨论后,俞扬向阿里提交了“虚拟淘宝”模拟器项目申请,试图从历史数据中学习出一个有虚拟用户的环境,有了这个环境,便可以实现“0成本”训练强化学习。项目申请提交后,俞扬团队很快收到了阿里评审专家的质疑:用户行为如此复杂,从没有方法能成功模拟,这个项目能行得通吗?
以往对于环境模型学习的理论分析显示出,环境模型的误差会导致策略误差平方级增长,模拟一个好的环境可能比直接学策略还要困难。
在当时看来,这样的构想此前没有任何成功案例,而且团队也没有经验,缺乏信心。但这是俞扬预见的唯一可行的途径。成功只剩这一条路,只能硬着头皮试试看。
在跟阿里评审专家进行了多次沟通后,俞扬顶着失败的风险继续尝试。这套“虚拟淘宝”模拟器,是一套针对电商平台的虚拟仿真系统,其目的是帮助平台实现更合理的运作机制,平衡微观执行和宏观决策的一致性问题。
从技术上看,这一过程极其复杂,但其运行过程与《复仇者联盟3》中的奇异博士用时间宝在14000605种结果中寻找获胜结果一样。
“虚拟淘宝”是通过模拟器克隆多个虚拟用户,并对其实施基于强化学习的商品推荐,从中找到最优策略。庆幸的是,俞扬不仅实现了在开放环境中低成本使用强化学习决策,还将原来平方级的误差降低到线性——误差回到可控范围。
使用强化学习构建的“虚拟淘宝”架构
事实也证明了这一方法的优越性。该项目的研究结果显示,“虚拟淘宝”模拟器能够忠实反映真实环境中的特征,将其用于训练强化学习,可以避免试错的代价。训练出的模型于2018年上线测试,在现实业务中获得了2%的性能提升。
这一结果,第一次展示出环境学习途径在真实场景应用的可行性,证明了俞扬的判断是正确的。“虚拟淘宝”的探索,也为后来的淘宝国际项目中的搜索推荐任务提供了宝贵的研究积累。
阿里巴巴达摩院机器视觉团队负责人徐盈辉对「甲子光年」表示,“智能决策在阿里巴巴整个业务版图里,已起到至关重要的作用。”在电商平台上带约束的供给(平台流量)和需求(商家)的在线匹配机制,新品推荐策略中应用的规模化赌博机和半赌博机算法,以及为商家智能发布所研发的基于上下文的赌博机算法,还有传统供应链、物流运输领域,都有智能决策的身影。
此后,俞扬又接连与滴滴出行、菜鸟仓库等公司合作,在网约车、仓储拣选优化等多个真实开放场景中,进一步验证了该技术路径,打磨了算法。以菜鸟网络仓储拣选优化为例,此前只是按照路径最优的方式给工人派单,但南栖仙策模拟了无数种可能的派单策略下工人的工作效率,最后从中选择了最高效的策略。
最终结果显示,该技术可将一个天猫仓库拣货时间在人工优化几乎到头的情况下,再缩短超过10%。
至此,强化学习终于走出游戏区,跨过产业落地的第一道门槛。
3.解开落地之困
2018年,强化学习在现实环境中的多次成功应用,让俞扬有了更强的信心,同时也看到了一片蓝海。
“我们拿着强化学习的技术跟企业去合作,在别人看来这不过是一个探索的项目,也不会投入太多资源来推动这件事。”俞扬说。与此同时,俞扬的博士生、后来成为南栖仙策联合创始人和CTO的秦熔均也对强化学习的落地应用充满了憧憬,“非常希望能有一次契机和俞老师合作,我觉得公司的研究和项目与在学校里非常不同,有更多机会接触产业界的问题,不仅要仰望星空,还要脚踏实地。”秦熔均告诉「甲子光年」。
另一方面,需求确实存在。南栖仙策COO徐亮是俞扬的大学同学,不同于俞扬的学术经历,徐亮自大学毕业就一直在产业界摸爬滚打,产业落地经验十分丰富。
计算机专业出身的他,从2017年开始,对自己所从事的行业越来越感觉“不适”了。
“那时候,很多企业开始了数字化转型、智能化转型。就是装一些传感器,传感器再把数据收集后放到数据中台。”徐亮回忆,“其实很多企业只是把数据收集起来,但并没有产生价值。”
尽管在当时看来,智能化的趋势已经显现,但实际中智能化的应用却有名无实。数据原本是为了提升生产和决策的效率,但由于各种约束,数据只能躺在数据库里,并未产生明显的决策价值。
要让这些数据真正发挥决策价值,还需要一些更落地的解决方案。
2018年9月30日,在南京大学人工智能创新研究院新型研发机构的孵化促进下,南栖仙策(南京)科技有限公司成立。
公司最初选择的方向是自动驾驶中的智能决策。在与更有经验的投资人沟通后,俞扬改变了想法。“决策只是自动驾驶的一个环节,自动驾驶的很多环节都不够成熟,即使我们把决策做好,也无法解决整个问题。”俞扬告诉「甲子光年」。南栖仙策的天使投资人涌铧投资近年来积极布局AI前沿产业,2016年天使轮投资了寒武纪,回报颇丰。在谈及与俞扬教授的交集之时,涌铧天使基金合伙人洪亦修笑道:“我们预感到人工智能可能处在爆发前夜,陈天石是教授创业,而国内人工智能的顶级学术圈子并不大,自然而然也就认识了俞扬教授。”
洪亦修告诉「甲子光年」,“作为天使投资人,更多的是信任和帮助,我们完全信任南栖仙策团队在核心科研上的实力和优势,更多的是在商业和战略等方面提供帮助”。他认为,南栖仙策智能决策最大的潜力是通用性,它适用于包括制造、物流、营销等很多场景,凡是需要做决策的地方就有应用的可能性。而我国既是全球最大的生产国也是最大的消费国,因此南栖仙策的产品在提升生产效率和促进消费方面都具有巨大的想象空间。
与洪亦修深入沟通后,南栖仙策开始了通用场景的强化学习应用,并形成四大核心技术:构建虚拟世界、高效强化学习、对抗攻击训练、在线模型适配——这四项技术,进化出一套“现实世界自主决策系统”。
说起来容易,但如果面对这样的决策系统,客户依然顾虑重重。最大顾虑是:如何保证虚拟环境下的决策能适用于真实环境?
为了解决这一顾虑,南栖仙策做了两件事。
首先,在理论上证明其优越性。2020年俞扬带领团队成员,花了一年半的时间,最终用理论证明了在学习环境模型时,强化学习的方法性能好于传统监督学习。这一理论已形成论文,并于2020年11月在NeurIPS 2020(2020年度国际人工智能顶会)上发表。
其次,还要保证从虚拟环境到现实环境的可靠性。为此,秦熔均打造了南栖仙策检验标准,上线前对决策系统进行检验,以确定其和现实环境的拟合程度,并形成评分,直到达到要求。
经过这两个环节的验证,几乎就可以确保决策系统的可靠。
但俞扬对该决策系统的要求并不止于可靠,“我们决策系统的优势在于,它有想象力,能做出历史上没有见过的决策。”好比AlphaGo Zero没见过人类下棋,就能学会各种下棋策略。
如今,南栖仙策智能决策已经在一些场景中完成落地。
“中国是个制造业大国,如果能在制造业场景把智能决策赋能上去,那能带来很大的价值。”徐亮告诉「甲子光年」。制造业分几个场景,第一个场景是研发阶段,需要从初始状态找到更接近目标的过程或者参数组合,这个目标肯定有很多;第二是效率最大化的场景,或者性能最好,或者成本最低,对于研发过程中可能有这样一个目标的定义。
为了实现这个目标,南栖仙策通过不断的试验来完成这个目标,比如不断调整参数做试验,就是试错的过程。但真实场景中试错带来的代价很大,业务人员第一反应就是能不能用模拟器的方式把这个东西实现,在过程中智能决策就能自然而然派上用场,帮助企业降低试错成本。“我们正跟一家汽车厂商合作,帮助它们研发智能决策。预计可大幅减少测试次数,加快新车上市的时间,为车企赢得竞争力。”徐亮补充道。
实际上,在南栖仙策的探索下,基于强化学习的智能决策系统已经有了颇为清晰的应用路径:在研发环节,可减少迭代次数,提升研发效率;在生产环节,可优化产线配置,加快制造流程;在物流环节,通过优化拣选方案,提升物流环节效率,降低成本;在营销环节,则可改善投放策略、精准投放群体,进而提升销量。
南栖仙策智能决策系统可应用场景
让俞扬引以为傲的是,尽管谷歌的AlphaGo曾让深度学习名扬天下,但南栖仙策是全球第一个将这一技术走出游戏,并用于真实业务环境的。从这个意义上讲,南栖仙策自主决策系统具有划时代的价值。
4.中国AI的真机会
基于强化学习的自主决策系统虽然价值巨大,但其“高冷”的外表让很多人对其望而却步。
“我们接触的很多人,包括客户、投资人,都看不懂我们的技术,不知道我们到底是做什么的。”俞扬对「甲子光年」称。即使客户有意愿使用这套智能决策系统,也需要一定的门槛。
如果研发出来的产品没人用,那它的价值就等于零。
所以对南栖仙策而言,一个重要的任务就是,让这套智能决策系统更普适。“我们希望产品是,扔进去数据,就出来决策结果。通过走一套通用的流程就可以投入实际的业务场景当中去。”南栖仙策COO徐亮解释称。
这个愿望,已经接近实现。2021年1月9日,南栖仙策在南京发布了旗下新一代智能决策系统——REVIVE。南栖仙策产品副总裁李济君在发布会上称,REVIVE要做的事,就是以强化学习算法为基础,形成一个通用产品,再将这个通用产品应用到各行各业,“用户不用关注算法的细节,只需要关注自身业务。”
REVIVE系统的特色在于,用户只需根据系统内的模版,将excel等数据表上传到系统,描述业务逻辑,系统就可以自动训练模拟器,并学习得到策略模型,应用到实际生产中。
图片
REVIVE工作流程
REVIVE已经能做到以目标为导向,输入当前业务当中需要最优化的维度,策略模型就可以输出一个决策结果。
如此一来,其使用门槛大大降低,基于强化学习的自主决策系统就变成一个人人可用的产品。
南栖仙策强化学习落地的速度不断加快,也引起了越来越多同行业团队的关注。
在国际上,此前Google、DeepMind、Berkeley等世界知名人工智能机构的研究方向是虚拟环境下的决策系统;如今这些机构的学者,也把目光放在如何让强化学习走出游戏环境上。他们推动“离线强化学习”、“数据驱动强化学习”方向的研究,并建立了测评环境。照此下去,不出几年,走出游戏环境将成为强化学习领域的主流研究方向之一。
在俞扬看来,强化学习技术大规模应用后,将带来重大变革,技术弱势的竞争者可能会面临来自算法的打击。但国内在基于强化学习的智能决策领域布局的公司非常少,通常的做法是从数据中利用一些进阶的规则辅助决策。
“这是个起点,也是我们的机会。中国AI企业需要突破原始创新能力,如果能抓住这一时机,促进强化学习在真实商业场景快速应用,很有可能实现人工智能应用的弯道超车。”甲子光年副总裁李世民表示。
根据李世民的测算,目前该技术面向任一适用领域的市场空间都在百亿级以上,前景十分广阔。
在这一机遇之下,南栖仙策已开始与相关企事业单位的合作,率先将强化学习技术落地在我国制造、物流、服务等行业以及在国防应用中,为我国的产业智能化升级和国家安全做出贡献。
在学术研究方面,俞扬联合发起了亚洲强化学习研讨会,并承担了多届研讨会的组织;他还担任了2020年在南京举办的国际分布式人工智能会议程序主席,该会议以智能体和多智能体为主要议题;在今年刚过去的1月9日南栖仙策智能决策发布会上,南栖仙策还与多家单位一起,发起成立CCF多智能体系统专业学组——智能决策对抗MeetUp暨智能决策开放研究联盟,联合企业应用优势与高校基础研究优势,为中国AI研发带来更多正向助力。
但这条路并不好走,甚至还要面对质疑。
“历史其实都是这样,往后看满是道理,往前看全是质疑。不如坚守自己的信念,开始自己的征途,让强化学习在真实决策问题上落地,创造不同的世界。”这是俞扬的感慨,也是他的追求。