一个很多人都会感兴趣的问题:大模型是不是参数规模越大越好?
鹏城-百度·文心大模型,作为全球首个知识增强的千亿大模型,参数规模达到2600亿,相比GPT-3的参数量提升50%。
大模型的全称是“AI预训练大模型”,“预训练”的意思是:预先训练好,这样应用开发者可得到相对现成的训练结果,基于此直接开发AI应用,不再需要从0到1训练数据、建立模型,避免重复造轮子的现象出现。
参数规模大,意味着进入大规模可复制的产业落地阶段,只需小样本的学习,就能达到比以前更好的效果,这是大规模的好处,但并不是全部。
我们知道,训练大模型要从非常大量的数据中去学习,但数据不等于知识,知识是人类对信息的一种感知和经验,从知识中学习,势必要比从数据中学习,更接近于“人类”。
这就是百度开创知识增强大模型的用意,也是核心价值。
百度产业级知识增强大模型“文心”中,既包含基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台,能够促进技术创新和产业发展。百度知识增强模型除了在数据海量无结构数据学习以外,很重要的一点是大规模知识,并且学的时候,单元不是简单的串,而是基于语义单元学习,将使得学习效率更高,可解释性更好。
的确,传统大模型只从海量的文本中学习,只能死记硬背海量文本的规律,这些模型并不能从本质上理解世界是怎样运行的,只可以解决一些文本表象上的问题。而百度文心大模型,可以同时从大规模知识和海量多元数据中持续学习,所以具有通用性强、效果好的特点。
百度也将其总结为三个要点:知识与数据融合学习、知识增强跨语言学习和知识增强跨模态学习。让机器同时学习和理解多种语言,并实现了复杂场景的多层次、高精度语义理解。
好处也是显而易见,以增强跨语言学习为例:通常机器翻译需要双语对照,一句中文,对应一句英文的译文,如果多语种,就会出现一对多的情况,导致数据量很大。而文心大模型则通过非平行语料学习,不仅效率更高,也解决了模型向多语种平行迁移的问题。