千亿大模型开源共训，打造中国的LLAMA70B

问：“有一个人，身高3.19米。”

答：“有记录的世界最高人名为詹世钗，是清朝时期江西婺源县人.......”

笔者家的孩子今年8岁，他已经用手机上的大模型APP“操作”半个多小时了，这种AI问答应用帮助好奇的小朋友解答了很多问题，所回答知识的广度与深度远超普通人，极大拓宽了他们的视野。

8岁孩子通过AI画的“科技星球”

回过头来再看看我们手机中的其他APP，似乎大部分都已经深度融入了AI相关技术。AI与生活、工作建立起了紧密的联接。

正如当今炙手可热的读物《ChatGPT：人类新纪元》中马占凯说的那样：第四次科技革命来了！

全面步入AI时代

2023年，笔者参加了很多IT领域大会，它们几乎全部都以AI为主要话题。随着技术的不断进步和应用的广泛推广，AI正以惊人的速度发展。IDC数据显示，预计到2025年，全球AI市场规模将超过600亿美元，年复合增长率达到15.1%。中国AI市场超过全球平均增速，AI正以前所未有的方式渗透到各行各业中。

2022年末，ChatGPT正式发布，在全球范围内掀起了巨大的鲶鱼效应。几个月后，由一众互联网、IT企业主导的“百模大战”打响，AI21 Labs、LLAMA70B、Anthropic、文心一言、星火、通义千问等各类大模型如雨后春笋般涌现，迅速吸引了大量开发者，AI相关应用层出不穷。

在同一时刻，参数规模高达2457亿、全球最大的中文AI巨量模型之一的浪潮信息源1.0大模型以开源方式发布，使得不同知识背景的各行业用户可驱动大模型创造更多的可能。

随着技术的不断进步，浪潮信息源2.0大模型也于2023年11月27日正式上线，其参数规模高达千亿级别，包括1026亿、518亿、21亿三个版本，相比源1.0其在编程、推理、逻辑等方面均有所提升。

浪潮信息源2.0大模型采用了更多样的高质量预训练数据和指令微调数据集，以提高模型在不同领域的语义、数学、推理、代码、知识等理解能力。与GPT-4相比，浪潮信息源2.0大模型在某些指标上可以与之相当，例如在HumanEval、AGIEval、GMS8K等榜单上均有着较高的排名。

源2.0基础数据：高质量和专业化

众所周知，所有的AI大模型训练都以海量数据为基础，高质量的训练数据越大，大模型的推理能力也就越强。源2.0的重要特征之一就是：通过数据清洗来实现数据的高质量和专业化。

在数据方面，浪潮信息优化了数据来源、实施数据增强以及采用合成方法。同时，减少了互联网公开数据集的使用，增加了百科、书籍、期刊等相对高质量的数据来源。此外，还引入了代码和数学数据，以增强模型的数学逻辑推理能力。

尤为值得一提的是，浪潮信息创新性地利用大模型本身作为数据的生成器。通过这一方法，构建了高质量的数学和代码合成数据集，为大模型的预训练和微调提供了有力支持。这一策略不仅提高了数据的质量和多样性，还有效解决了高质量中文数学及代码数据集相对稀缺的问题。

举例而言，浪潮信息提取了自2018到2023的所有中文网页及社群信息，源数据高达12PB，而清洗后得到的数据仅为10GB，可见源2.0大模型数据质量非常之高。

看到这里相信有朋友可能会产生疑问：浪潮信息是一家以硬件为基础的企业，在AI大模型方面是否有专业化的技术实力呢？

其实各位大可不必担心，在基础架构方面浪潮信息AI服务器持续多年市场份额全球领先。在产品研发、客户需求和实际应用方面，浪潮信息AI团队在AI算力系统的性能调校和优化方面积累了丰富的经验。并推动浪潮信息AI服务器多年来在全球最具影响力的AI基准性能评测MLPerf的训练和推理取得了优异的成绩。此外，浪潮信息还主导了AICC（人工智能计算大会）、ASC（世界大学生超算竞赛）等知名活动和赛事，所以无论是软硬件人才储备还是AI技术与解决方案能力，浪潮信息都有着强大的实力。

由高度专业化AI团队打造的源2.0大模型，其技术水平自然值得信赖。

算力优化，提升执行效率

在算力方面，浪潮信息源2.0采用了独特的非均匀流水并行方法。这一方法结合了流水线并行、优化器参数并行和数据并行等策略，旨在使模型在流水并行各阶段的显存占用量更加均衡。这种方法有效避免了显存瓶颈导致的训练效率降低的问题，显著提高了训练效率。

值得关注的是，该方法显著降低了大模型对芯片间P2P带宽的需求。在硬件差异较大的训练环境中，这一特点尤为重要。它为这类环境提供了一种高性能的训练方法，确保了大模型在不同硬件条件下的稳定和高效训练。

经常训练AI模型的朋友肯定会对GPU的显存容量更加敏感，因为有些数据量大或结构复杂的模型需要大容量显存才能执行训练任务，显存容量不足会导致训练失败。但对于硬件基础架构而言，GPU的成本着实不低，所以如何能够“节省”显存的占用就成为了优化的首要目标。

据浪潮信息提供资料显示，源2.0训练采用了ZERO-1（零冗余优化器技术）优化器并行策略。它可通过减少冗余，提高模型训练的内存效率，从而使得更大的模型可以在有限的硬件资源上进行训练。

在GPT-2模型中，尽管参数数量高达1.5B，但使用fp16（半精度浮点数）格式进行存储和计算时，理论上只需要3GB的显存。然而，实际运行中模型状态所需显存高达24GB，这主要是由于Adam优化器的状态占据了大量显存。为了解决这个问题，我们可以通过对Adam优化器状态进行分片（ZERO-1策略）来优化其存储和计算效率。

通过将Adam优化器状态进行分片，我们可以更有效地管理显存使用，提高模型的训练效率。这种分片策略（ZERO-1）允许我们在不损失太多精度的情况下，显著降低显存使用量，从而使得更大规模的模型能够在有限的硬件资源上训练。

此外，源2.0在计算中采用了逐块交叉熵计算方法，它将大型词汇表分成多个小块，每个块只包含一小部分token。在计算交叉熵损失时，每个块都会独立计算其损失，然后将这些损失连接在一起。

通过将大型词汇表分解为多个小块，可以减少显存消耗和计算时间。这是因为在最后流水线阶段中，只需要同时处理一小部分token，而不是一次性处理整个词汇表。至此，传统方式最后一个流水阶段的显存瓶颈问题得到了完美解决。

通过非均匀流水线、ZERO-1及交叉熵等技术的优化，使得源2.0能够稳定地适应各种训练环境，当P2P带宽出现较大变动时，也几乎不会影响训练效率。算力的进化，使源2.0更加强大。

降低使用门槛，推进共训计划

LLAMA70B是由Meta开发的LLaMa 2系列大型语言模型之一，也是AI社区内最强大的开源模型之一。其在文本生成、复杂逻辑推理以及自然语言处理等任务方面可以媲美ChatGPT，由于采用了开源模式，因此备受行业用户及开发者们的关注。

开源大模型，有开放性、自由性、社区支持、可定制化、可持续性和长期维护等特点，在不断地进化中快速适应市场需求。企业用户所面临的挑战恰在于此，一方面，有很多行业用户缺乏强大的数据和技术能力，无法自己独立构建AI大模型，也难以满足不断变化的应用需求；另一方面是资源浪费问题，行业用户经常会出现“重复造车”现象。

基于此，浪潮信息源2.0采用了全面开源模式，并启动了共训计划，目标是打造中国的LLAMA70B，力求推动AI领域快速发展。源2.0将继续邀请开发者，优化在各个实际应用场景中使用源大模型，并通过社区反馈给开发团队。源开发团队结合反馈对大模型进行强化训练，并持续升级。

对于开发者而言，源2.0能够让“普罗大众”直接使用业界优秀的基础大模型，并基于此做进一步定制化开发；面向行业ISV，源2.0共训计划则极大降低了大模型使用门槛，使其能够快速轻量化的发掘更多的应用场景，进而推动整个行业快速迈向智能化时代。

从客服到反诈，大模型撑起未来

谈了这么多AI大模型的进化与发展，在实战方面又给行业带来了哪些创新呢？

源大模型在智能客服领域的应用非常广泛，可帮助企业提供更加高效、智能的客户服务。其自然语言理解和生成能力很强，在传统问答式服务中让用户感觉不到是在与AI对话。

在浪潮信息自己的企业客服应用中，源大模型也扛起了重任。通过针对性的训练，它俨然成为了一位IT知识专家，可以帮助客户解答各种复杂服务需求，例如：涵盖产品规格、产品使用、技术参数、故障维修等各类问题，涉及多元的软件、硬件与不同的业务场景、业务流程等相互交叉的复杂情形。

据资料显示，源大模型客服平台的解决率高达80%，可将复杂技术咨询问题的业务处理时长降低65%，提升浪潮信息整体服务效率达160%。

2022年末，B站一支AI“反杀”诈骗犯视频登上热搜，视频中，反诈AI小源伪装成潜在受害者，与诈骗者斗智斗勇。并基于与海量诈骗犯的对话分析总结出几个骗子惯用套路。

视频中的反诈AI基于源1.0大模型构建，它拥有极其丰富的语言及识别能力，使得诈骗犯的各种套路无处遁形，正如热评所言：让小偷失业的是移动支付，也许未来让骗子失业的正是AI。

此外，在AI剧本杀、AI复活鲁迅、自动化运维、辅助创作等应用中，源大模型都展现出了非凡的实力，助力千行百业的开发者孵化出众多爆款应用。

一直以来，我国政府都高度重视人工智能的发展，并出台了一系列扶持政策，推动人工智能技术的研发和应用。同时，我们还拥有一批顶尖的AI人才和团队，在深度学习、自然语言处理等领域取得了重要突破，也让国内IT企业在全球都有着强大的竞争力。

浪潮信息源2.0大模型的问世为市场注入了新的动力，通过更先进、高效的技术进一步提升了人工智能技术水平。开源及共训计划的推出大幅降低了使用门槛，并使其快速融入更多行业，加速智能化进程。

未来，随着浪潮源2.0大模型的不断完善和应用推广，我们有理由相信，人工智能将在各个领域发挥更加重要的作用，为人类社会带来更多的便利与福祉。

推荐阅读

目录