“互联网原子弹、幼年期的天网、人工智能界的卡丽熙……”这是2020年,轰动整个世界 GPT-3问世后,被全球网民冠以的各种称谓。
尽管夸张,但却意味深长。
2020年5月,Open AI发表了一篇开创性的论文,题为Language Models areFew-Shot Learners,拥有1750亿个参数的GPT-3由此诞生。它的运行规模一度令人难以置信,举个例子:英语维基百科(约600万个词条)仅占其训练数据的0.6%,可见其训练数据集之巨大。
随着机器学习模型发展愈加复杂,通用AI技术与行业应用之间形成了巨大的鸿沟。而训练超大规模模型恰是解决通用性难题的“关键钥匙”,换言之,AI大模型是AI技术规模化创新的基础,这就是GPT-3之所以备受关注的原因。
中国工程院院士、鹏城实验室主任高文(左)百度首席技术官王海峰(右)联合发布鹏城-百度·文心
随着AI大模型被GPT-3带入千亿规模时代,国内外的科技巨头如谷歌、微软、亚马逊和百度,都在AI大模型上做了相应的探索。12月8日,百度联合鹏城实验室重磅发布了双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心,百度产业级知识增强大模型“文心”也登场亮相。
过去人工智能技术,只能是巨头的“游戏”,无论是数据、算法还是算力,都是小公司无法企及的。但随着人工智能与行业需求的不断碰撞,智能应用不断涌现,人工智能也开始逐渐“步入寻常百姓家”。
为了推动人工智能的行业普惠,“十四五”规划纲要将新一代人工智能作为要攻关的七大前沿领域之一,鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建。
我们也看到,很多行业正因为AI的融入在发生改变,并大幅推动了行业AI的需求。例如得益于视频、城市大脑等AI应用场景的带动,AI在行业渗透,推动了政府、交通、公共事业、健康等行业的智能化提速。
但人工智能在训练、验证、部署等阶段,依然面临应用场景多元化、数据巨量化带来的诸多挑战。
人工智能与行业之间的最大落差就在于通用性。通常来讲,专用AI解决专用的问题容易,但用AI技术解决通用的需求却很难。因为,一个AI模型往往专用于特定领域,应用于其他领域时效果不好,而训练超大规模模型就能一定程度上解决通用性问题,这也是为什么大模型是通用AI实现的关键。
因为大模型的好处不仅是效果好、泛化能力强、通用性强。更是新一轮科技革命和产业变革的重要驱动力量,所以需要实现在各行各业当中的通用性,才能成为产业革命的通用力量。
鹏城-百度·文心千亿大模型,融合了自然语言理解和自然语言生成,致力于解决传统AI模型泛化性差、强依赖昂贵人工标注数据、落地成本高等应用问题,在各类AI应用场景都具备了极强的泛化能力。
泛化能力是指模型训练一次,形成的大模型就可用于各种各样的任务,哪怕这些任务之间没有任何关联。而传统范式是首先要预训练得到一个基础模型,基础模型做完之后,需要针对具体任务再做数据级微调,这意味着如果一个企业有各种各样的任务,就得有各种繁多的模型。
因此,大模型的出现,就是为了降低各类用户的开发成本,缩短通用AI与行业需求结合的路径而来的。