26

脑极体 · 2023年07月14日 · 广东

大模型的“第一性原理”:技术创新与社会价值的接轨

随着时间来到2023年第三季度,国产大模型已经达到100多个,“百模大战”正式开启。

大模型,我们有了很多选择,也开始呈现出某种同质化。除了拼参数、比背景、看榜单,有没有其他方法,让我们更好地判断一个大模型的价值呢?

亚里士多德认为,任何一个系统都有自己的第一性原理,它是一个根基性命题或假设,不能缺省,也不能被违背。

透过表象,追寻本质,会发现各家大模型的 “第一性原理”,有很大的不同。而这个核心的不同,也会带动大模型走向不同的发展模式。

比如OpenAI的内核是AGI,大语言模型以“通用人工智能”的目标,作为出发点,最近才开始走向行业。

一些通用大模型,内核是“科研”,在榜单上有不俗的成绩,而行业应用所需要的配套工具、算力基础设施等,则不在研发者的考量中,逐渐淡出主流视野。

一些产业大模型,内核是“应用”,要快速胜任某一些具体的任务场景,加入了行业知识和专有数据“特训”,可基础模型能力一般,遇到“常识性问题”就掉链子。

图片 1.png
工具可以开发,算力可以买,一个大模型的内在价值核心,却不会轻易替换。

我们一层层剥开京东大模型,看到了一个核心,就是——“产业”。

最近恰逢WAIC和JDD大会,我们跟京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬博士,进行了多次交流,他深入分享了很多京东对于大模型的思考。

将“产业价值”作为大模型的“第一性原理”,会让大模型走出怎样一条差异化的发展之路呢?我们不妨以京东为例,来展望一下产业大模型的未来。

大模型的价值起点

巴菲特曾说过,投资是滚雪球,找到“长长的坡”和“很湿的雪”,雪球一旦启动,坚持下去,就能越滚越大。

从产业的视角出发,会发现大模型这颗“雪球”的核心价值自证,确实还存在着很多问题,比如:

1.技术的可用性存疑。

产业化最后一公里的问题,看起来好像不大,却是决定大模型能用不能用的边界。

京东从2017年开始关注大模型,就很注重行业落地,也碰到了一些经验教训。

何博士直言,“拿着刷榜的技术给业务部门去秀,用起来碰到各种各样的小问题,对使用者来说不可用,后来人家就不信你了,你再怎么说也觉得你技术不行”。

2.行业的连接不够充沛。

大模型落地,需要解决一个一个具体问题。这些问题不可能在实验室里“涌现”,行业到底需求什么,有哪些限制条件,都要从产业实践和应用中找到答案。

何晓冬博士认为,大模型是不能自己坐在办公室拍脑袋想出来的,一定是行业凝练出来的。

但向上触碰学术、向下扎根行业,这样的AI研究机构本身就很稀缺。

3.价值回报还很朦胧。

引入大模型,意味着企业要增加各种成本,消耗大量的资源。企业引入大模型,也希望得到经过反复尝试被证明没有问题的产品。目前很多大模型的价值自证,还不够有力。

何博士就提到,一般的生成式语言模型,内容正确率是83%、85%左右,to C用户觉得还可以,但严肃商用的时候,模型正确率要达到95%以上,才能达到企业的要求。“明明这个活动打的是八折,大模型生成的营销文案说是五折,这个事情商业上是不可接受的”。

事非躬行不知难,大模型急需一场产业价值的自证与他证。

破解方式其实也很简单,就是一步一个脚印,把该踩的坑都踩了,把遇到的问题都一一解决。

所以年初,大语言模型高歌猛进的时候,京东没有跟风,它在忙什么?忙着解决问题。

京东的长坡

以“产业价值”作为 “第一性原理”,京东做大模型最先关注的,不是签了多少单,什么时候开发布会,而是夯实基础设施。

AI三要素:数据、算力、算法,都需要升级,才能撑住大模型时代,如同一个“长坡”,让大模型的“价值雪球”可以向前滚动。

先说数据。产业大模型,一般是先用公域数据训练基础模型,再用行业专有数据进行“特训”,相当于先在中学上通识课,再到大学里去学专业技能。京东的思路很不一样,言犀大模型训练时融合70%的通用数据与30%数智供应链原生数据,把零售、金融、健康、物流的know-how和数据,也放到基座模型中,相当于既做了通识教育,又上了很多门专业课,有更多的行业理解。

所以京东的大模型一推出来,面向知识密集型、任务型产业场景,已经可以解决真实产业问题。

再说算法。算法是大模型的核心能力,也是拉开产品体验差距的关键。目前,单点算法已经不足以撑起大模型了,大语言模型就包含了强化学习、提示学习、预训练等一系列优化。成体系的技术体系和算法创新,也更容易形成护城河。

然后是算力。很多大模型推出后不久便停止开放、限制互动次数,就是因为算力不足或成本昂贵,企业想用也用不起。所以,大模型后续能否持续为产业所用,算力不能成为短板。

京东在2021年就建立了最先进的DGX集群,在重庆落地了全国首个基于SuperPOD架构的超大规模计算集群——天琴α,推理提速6.2倍,推理成本节省90%,为基础大模型的训练和迭代提供保障,保持竞争力。

图片 2.png
一路深耕AI三要素,京东为大模型从技术走向产业,构筑了一条“长坡”。至此,大模型的价值底座,已经非常坚实。

产业的厚雪

回顾上一阶段的产业智能化,很多技术能力都停留在表面,难以深入行业或规模化复制。大模型的价值变得饱满,要卷起产业的“厚雪”,将雪球越滚越大。

在何晓冬博士分享的一系列京东大模型技术和实践里,我们可以看到,大模型黏住产业“厚雪”的多种姿势:

一是技术黏着。

产业AI落地难的很多问题,其实都源于技术瓶颈,比如深度学习的不可解释性、泛化能力不足、模型精度不够等。京东通过基础技术的体系化突破,让大模型变得高可用,形成端到端的产品价值。

比如数字人,基于10余年智能对话经验与多模态交互技术积淀,京东云多模态数字人只需要极少量样本素材,5分钟简易拍摄,就可以自动生成声情并茂的数字人,让中小商家与个人能够用得起、用得上数字人服务,算力、开发周期、人才等高门槛不再成为问题。

二是工具黏着。

目前,很多大模型厂商都开放了API调用的MaaS服务,但一个容易忽略的问题是,调API也是需要一定能力和开发工作的,很多传统行业的用户,连AI基础调用API的能力都不一定有。

丰富、极简、开箱即用的工具,是产业落地必不可少的条件。京东的目标是,让对AI完全没有认知的用户,也可以直接使用大模型,提供从数据模型到应用服务的全周期管理,从基础层、模型层、MaaS,延伸到了应用层的SaaS服务。

言犀大模型开放计算平台的行业知识库,就沉淀了100多种训练和推理优化工具,不到一周时间,即可完成从数据准备、模型训练、到模型部署的全流程。

三是实践黏着。

比起某个榜单上的书面效果,企业应用大模型,更希望看到实际应用中的真实效果,对技术能力和价值收益有一个更清晰的感知。京东已经进行了大量的产业实践,优势格外明显。

目前,大模型在零售、金融、健康、物流等京东内部高复杂场景大规模锤炼,并融合行业解决方案对外输出,可以减少大模型落地的顾虑和成本。

比如文本生成,零售领域的文案,每个品类的敏感信息审核门槛都不一样,基于京东全品类丰富的商品数据积累和大模型,京东云AIGC内容营销平台,已经可以通过一张商品图片,生成电商运营需要的商品主图,营销海报图和商详图等,每套图成本降低90%,周期从7天缩短到半天,而且不用担心内容有风险,因为大模型的安全可信,在京东零售内部已经锤炼过了。

再比如健康诊疗,是一个对内容专业性和可靠性要求非常高的场景,京东健康应用大模型,进行健康助手及辅助诊疗,已涵盖超千种疾病专业性服务,目前累计超3千万高质量医患对话,百万级规模医学知识图谱。这些积累。

图片 3.png
黏住产业的“厚雪”,做实大模型的技术红利,是这一轮AI热潮,带给科技企业的真正机遇。

在京东,产业大模型已经从一种技术设想,逐渐变为清晰的发展方向,以及可执行的行动方案,正在撬动产业AI的下一个可能。

抱一而为天下式,大模型的价值探索

在年初的热闹中保持冷静,在“百模大战”来临之际,京东却率先给出了大模型的价值公式:大模型的价值=算法×算力×数据×产业厚度的平方。

当下阶段,大模型的野蛮生长,已经告一段落,走向新的应用纪元。推动大模型“从参数为中心”向“以应用为中心”转变,是目前的核心问题。京东凭什么后发先至?或许是很多读者心中的“未解之谜”。

但透过 “第一性原理”,我们却可以看到,京东大模型差异化,是一种“必然”。

京东技术的“第一性原理”,就是“产业价值”。

如京东CEO许冉所说,京东研发每一项技术,都将产业属性作为出发点、产业价值作为目标:技术源于产业需求,历练于产业场景,创造产业价值。

这个“第一性原理”,造就了京东大模型的路线分野——产学研用的高度结合。

不同的出发点:不同于科研类大模型的“两耳不闻窗外事”,也不同于行业大模型的“一心只扫门前雪”,京东从产业端切入大模型,既需要锤炼基座模型的先进技术,又需要考虑为整个产业和社会创造价值,这条路如同“从北坡等珠峰”,更难也更有价值。

图片 4.png
不同的行路人:看到了路,就需要有攀登的人。以何晓冬博士为代表的京东技术人,眼中有人间烟火,聚焦产业场景,服务京东自己的业务需要,技术在真实场景中被实践打磨,被验证,再解耦赋能其他合作伙伴;眼中也有星辰大海,京东探索研究院当技术刚刚在地平线上露出来的时候,就看到五年后可能会发生一些革命性的改变,开始前瞻性的布局,大模型就是其中之一,具身智能、多模态大模型、AGI等,都是京东正在关注的方向。

不同的路线图:京东做大模型,不是“无的放矢”,对于大模型的应用实践,已经有了明确的“三步走”规划,第一步,基于内部实践构建通用大模型;第二步,在零售、金融、健康、物流等京东内部高复杂场景大规模锤炼,融合行业解决方案对外输出;第三步,针对严肃商业场景将大模型能力对外开放。目前,京东云已经基于内部实践构建了通用大模型。到今年年底,京东将经由高复杂场景大规模锤炼,迭代出扎实的产业服务,预计在2024年初,会将大模型能力向外部严肃商业场景开放。目前,京东已经走到第二步,并在内部取得了丰富的实践成果。

以“产业价值”作为大模型的“第一性原理”,驱动着京东在大模型领域,走上了差异化的发展模式,率先完成了产业价值的创生和积累,更早进入应用纪元。

京东大模型的“价值雪球”,正以“马太效应”越滚越大,加速驶向千行百业、人间烟火。抱一而为天下式,大模型的产业价值,最终会凝结在万千众生的微笑里。

推荐阅读
关注数
6399
内容数
1553
写让你脑洞大开且能看懂的人工智能、流媒体、海外科技
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息