雷涛 天云数据CEO
荣获国家级AI最高奖项:吴文俊人工智能科学技术发明奖。
2020年中关村高端领军人才获得者;首批CCF中国计算机学会大数据专委会委员;主导并参与汇丰银行、中国移动、中国联通、工商银行总部等多个亿级大型信息化项目规划建设。
—
文 | babayage
编辑 | 笑 笑
两年多求索,《科创人》逐渐形成了一套价值判断标准:分享价值观>分享方法,分享底层认知>分享经验,分享解题原则>分享单题答案……选择成长经历为叙事载体,是因为人生的关键选择、决断中,最能体现其认知、原则、价值观。
既然价值是目的、叙事是手段,就不应为逢迎手段而降低价值传递的效率,因此《科创人》决定为一些善于体系化分享认知、原则和底层逻辑的前辈大咖破例,对他们的分享内容放弃二开、呈上源码。
第一位,有请天云数据CEO雷涛。
范式、经验主义失效
破坏力来自数据原生
科创人:越来越多的人意识到,这是一个传统范式、经验主义失效的时代,是重新寻找正确答案的时代,您认为冲击既有方法论体系的力量来自何处?
雷涛:每个时代的宏观特征一定不是单一要素导致的,但也一定有一些要素足以对其产生塑造作用。在我看来,基于先验主义而非科学逻辑的那部分知识体系,正在被数据原生的全新知识生产体系所替代、瓦解。
今年(2021年)年初, 谷歌云人工智能应用人工智能工程师戴尔・马尔科维茨投入了一项有趣的研究:让人工智能学习饼干松脆、蛋糕松软背后的科学原因,从而完成一个AI烘培菜谱。能否从烘烤工艺决定做饼干还是蛋糕?机器学习的结果是:烘焙的工艺过程上已经不能定义清晰,只能从原材料的成分上加以界定。
饼干和蛋糕的机器学习过程,以及其他无数的类似案例,告诉了我们一个事实:数字化世界里的知识,是构建在输入(成分)和结果上的,和我们人类所习惯的白盒过程推理认知(菜谱)相差很大。我们必须认识到,数字世界中,很多人类已有的知识判断往往失效了,比如我们如何认定机器智能的图灵测试方法,谷歌大会上已经证伪了图灵测试识别机器与人。
数据原生将带来新的知识生产革命,白盒的过程推理认知将被黑盒的数字长程演算替代,后者更准确,更强。
y=f(x),数据原生推动知识生产革命
科创人:大部分声音还是将数字化带来的变革称为转型,但您很果决地使用了革命这个词,您如何定义知识革命?
雷涛:我们从知识的生产所经历的四个发展阶段总结:
1 科学实验: 远古的钻木取火到伽利略的比萨斜塔,知识从实践中生产;
2 理论推理: 牛顿利用微积分数学工具推导,知识从公理公式中生产;
3 仿真计算: 基于已知对物理世界仿真建模,知识从规模计算中生产;
4 数据原生: 面向答案求解不确定过程,知识从海量数据关联中生产;
数字经济正在经历“数据孪生”向“数据原生”发展阶段,前者将人类已有知识应用于数字虚拟世界,尚处于第三阶段,但后者生产适应于数字经济的新认知,是另一个层次的存在。
数据孪生推动知识生产的阶段,是试图用已有的认知和知识结构,去解决虚拟数字世界里的问题,用我们的知识白盒构建一个模型,做高性能计算去推理,知识计算更多依赖公理认知的已有知识自动化,算力基础设施是超算中心的HPC高性能计算集群。面对复杂动态个性化的计算场景,白盒建模的仿真遇到天花板,例如基于地球物理经典理论建模的气象预报,在局地气象和雷暴等突发极限气象的求解失效。
数字原生是如何生产人类认知之外的新知识。就像Alpha Go,它没有从人类最佳实践优秀棋谱里学习,没有从已有知识里学习,而是从行为数据(黑白落子)中,面向结果(输赢) 学习中间不确定性的过程,生产出新的知识,重构新的业务流程和实践。例如电商推荐算法重构了零售商业,打车软件的规划算法重构供给和需求的商业组织形态。
数字原生在重构人类认知。
科创人:数据原生的知识生产方式,从生产知识到改变物理世界的传导机制是怎样的?
雷涛:举个AI商业应用的例子,现代企业的业务模式正在经历从流程驱动到数据驱动转变的商业重构,人工智能已经可以替代传统的经验、规则、流程,重构商业实践,促成新型商业决策。
这里用一个函数公式来表达DT(Data Technology)时代的熊彼得增长模式,即核心价值体现为y=f(x),y是结果,x是数据,f可以近似理解为是某种规律——但必须强调,数字对规律的理解与人类不同,人擅长抽象归纳简单规律,而数字是用复杂理解复杂。以金融领域为例,当我们输入大量消费者的行为数据(x)与资金交易的结果数据y,通过数据库和AI PaaS平台的加工,得到的是反欺诈风险评估的模型f,而f可以成为1乘100快速扩张复制的智能应用,不需要再将数据搬来搬去,只要将f投入到各个“反欺诈应用场景”就能创造价值,f作为新的生产要素,从而在信息产业变革中获得高成长。
新的生产方式和生产资料的变化带来了效率的迭代提升,机器的角色从严谨地执行人类的指令程序,转变为基于目标进行迭代学习,将输入和输出过程中不确定的过程表达成一个软件模型或智能应用程序,这将大规模提高软件的生产效率,对于信息产业而言,这本身也是一次颠覆性的变革,DT时代科技企业的收入可以体现为平台工具+数据科学服务的复合性收入。
人类与机器共生的未来
科创人:当机器开始生产知识,人与机器的关系是否将应该颠覆性的变革?在您看来,未来人和机器的关系是怎样的?
雷涛:在过去,面对大量的信息,人类一直认为自己是万物之灵,“你把信息交给我,我来控制然后进行判断”,在这过程中诞生了无数的大师和专家。那么经验和专家给我们的是什么呢?是一系列的报表,你能看到这个月的销售数字、销量等一系列的内容,然后依据这些数字做决策。
但当AI出现之后,人的最高价值不再是处理信息,而是培育AI,我们在设计好一个精巧的算法引擎之前,先把它扔到生产线上,然后再去规划这个引擎本身的设计,像三千年前的罗马竞技场一样,让两个深度学习的怪兽,自己彼此PK,得到一个最佳结果。
在这样的模式下,人类和机器的角色被重新定义,AI的介入使得我们的角色提升了,我们不再是一个简单的参与者,不再是在生产线上重复的工作者,而是更多地从事一些高精尖的工作。
数字世界≠物理世界
打破认知瓶颈,警惕数智“民科”
科创人:您多次提到了数据原生生产知识的方式呈现出黑盒状态,无法为人所准确观察、理解,所以我们不能简单地将AI计算的“f”理解为规律?
雷涛:早期的AI也试图想找到一些规律,比如我们在信用卡里普遍使用的评分体系,到底是三千块钱额度还是三万块钱额度?但是我们越来越不再依赖于简单地表达事物,而是依赖于复杂性,依赖于数字的表达方式。
AI还原了我们对整个世界复杂性的理解,当人类看到一棵树,更习惯于进行抽象思维,不管它是什么颜色的、有多少个枝杈等等,我们的第一反应:这是一棵树;但当机器看到这棵树时,会尽量捕捉到它的所有细节,这是机器的长处,它更容易表达复杂性。
必须要承认,这个世界上有很多问题,人类没办法抽象出简单的规律,比如我们现在大量使用的视觉计算,怎么才能让图片去认知这是一只猫或者一只狗呢?用人类的语言和思维去描述图片信息是很有限的,这些有限的元素无法还原复杂内容;同样,我们怎样利用Alpha Go把16万棋手的大局观、棋风都抽象描述出来?
人类的语言在“还原复杂性”这一项上,黔驴技穷,而深度学习无疑给了我们一个描述复杂世界的方法,用一套复杂的数学体系和分布式计算能力去应对,同时深度学习也给我们找到了一个认知地图和拼接地图的方法。
用复杂应对复杂,人类有了新的方法获取更广泛的认知。
科创人:那么“不能理解数字世界的黑盒”是否将影响人们对这一方式的接纳,进而影响这一生产力的普及?
雷涛:我确实有此担忧。面对数字原生这场知识生产革命,最大的束缚就是,很多人习惯于用物理世界理解一切、定义一切,在我看来,这种认知会阻碍数字原生的普及与发展。
每一场知识革命,都伴随着对“认知”的打破,人装了翅膀是飞不了的,真正能让飞机上天的是空气动力;汽车出现的时候,人们还只是需要一匹更快的马,马力这个词延续至今;古人捏土制陶时,肯定想不到如今光刻机在单晶硅片上灼刻集成电路……
新的知识革命,必然带来新的认知体系,反过来说,错误的认知体系,必然拖累知识革命的脚步。
终
2000年前的秦人还是吃的和10万年前古人一样的谷物,但我们从火车到网络,所有的一切都在加速。在过去的两个世纪,我们燃烧的有机物残骸是经过亿万年转化而形成的化石原料,这些燃烧已经对星球前第四季造成了巨大消耗,也深刻影响着这颗星球多样性生命平衡演进发展的进程,有责任的领袖设定了碳中和目标,掌握冪律规律,学习用更多“瞬间”科技力量去消费越来越稀缺短暂的时间-空间。
——摘自《数据原生的时空观》作者:雷涛