国内首家多模态AI大模型创业公司浮出水面，首款产品Glow已近500万用户 | 甲子独家 - 极术社区

国内首家多模态AI大模型创业公司。

作者 | 赵健、刘杨楠

在ChatGPT爆火之后，“AI大模型”成为下一个人工智能的高地。
「甲子光年」获悉，于2021年年底成立的人工智能创业公司MiniMax已投入自研多模态AI大模型一年多。

2月16日下午， MiniMax在北京举行了首次面向媒体的小型沟通会，核心创始人杨斌分享了公司对技术的认知和关于商业路径的一些想法。

MiniMax从底层做起，形成了文本到视觉（text to visual）、文本到语音（text to audio）、文本到文本（text to text）三大模态的基础模型架构，可能是国内第一家同时拥有3个模态大模型能力的创业公司。

MiniMax的商业模式与OpenAI相似，包括to C与to B两大方向。在to C方向，其大模型驱动的首款产品Glow已经上线应用商店约4个月，目前已获得近500万用户；在to B方向，MiniMax计划在今年对外开放API。

1.核心团队来自全球知名高校与科技公司

杨斌是MiniMax的核心创始人之一，他用“我和我一群志同道合的朋友们”来形容MiniMax的创始团队。而这个“志同道合”，指的是对“AGI”理想的热爱和执着。

杨斌于2014年在中科院自动化所第一次参与深度学习相关的项目，2016年前往加拿大多伦多大学攻读博士学位。在海外留学期间，他先后作为创始团队成员在Uber ATG研究院、自动驾驶初创公司Waabi等团队供职，拥有多年研发经验，对基于数据驱动的端到端系统问题颇有研究。

此外，公开信息能查到的另一位核心成员周彧聪，据证实来自商汤科技，是商汤科技早期员工之一，曾经在商汤科技研究院带领算法团队。

对于核心团队的背景，MiniMax相关工作人员表示：“我们团队里没有什么大牛，和外界的一些想象也不太一样，我们说到底就只是一群坚定地要干AGI的人而已。大部分都是和同行一样的研究员、工程师和产品同事。所以我们觉得模型和产品表现就能说明我们的一切了。”

目前，MiniMax团队人数已过百，公司核心技术研发成员均来自全球知名高校和全球顶尖科技公司，拥有世界顶尖自然语言处理、语音、计算机视觉、计算机图形学等工业界和学术界经验，1/3 的团队成员拥有世界顶尖技术实验室的博士学位。

在MiniMax创始团队看来，此次ChatGPT的出现并不意外，但比他们的预期要早3~6个月。

杨斌表示，过去三年，AI领域出现了三个关键事件：

第一件是2020年6月，OpenAI发布GPT-3。这表明在自然语言任务上，也存在类似“摩尔定律”的规律，即如果让模型的参数量成指数级增加，并配合足够多的语料数据，就会发生化学反应——GPT-3拥有了对自然语言的推理能力，并拥有很好的泛化能力，几乎能够解决任何文本处理任务，如翻译、续写、评价等。

第二件是2021年1月，OpenAI提出了跨模态模型CLIP，该模型能够在互联网上抓取大量图片文本，学习一段时间过后，CLIP能够实现用自然语言解释对图片的理解，也能通过文字描述来生成图片，这便是一种跨模态的生成和转换。之后火出圈的文生图大模型DALL-E 2，能够通过用户给的一段文字描述生成图片，而DALL-E 2背后的技术基础正是CLIP模型。

第三件事是2021年8月，特斯拉在AI Day上证明了完全由数据驱动的、端到端的深度学习技术栈能够在自动驾驶上被成功应用，并且已经成功上车，在现实世界跑通了数据闭环。此后，全球各大自动驾驶公司才相信这件事原来能够做成。

基于以上三件事，MiniMax初创团队早在两年前就对未来趋势做出判断：AI技术将在未来2-3年内发生质的升级，AGI（通用人工智能）将成为可能。

基于对AGI趋势的判断，以“和用户共同创造通用智能 Intelligence with Everyone”为使命的MiniMax，在2021年12月成立。

2.首家“三模态AI大模型”创业公司

杨斌认为，AI 2.0阶段，AI公司可以利用一个“AI通用大模型”，直接服务于每一个人，就像现在的ChatGPT一样，实现“AI with everyone”。这仅需要一个规模较小的团队就能实现，比如OpenAI的人数也只不过375人（截至2023年1月）。

MiniMax就是要做AI 2.0阶段的公司，即通过AI大模型逐渐实现AGI。

在过去的15个月中，MiniMax主要做了两件事：自研核心技术与找到商业路径。

在技术层面，和目前很多创业公司只做应用层产品不同，MiniMax直接从底层的基础模型做起，百分之百自研了三个foundation model（基础模型）。

MiniMax自研的三个基础模型为——文本到视觉（text to visual）、文本到语音（text to audio ），文本到文本（ text to text）。杨斌表示，MiniMax可能是国内第一家同时拥有3个模态大模型能力的创业公司。

但同时他补充道：“我们也只能说是可能，因为也许存在着我们不知道的创业公司，是我们视野范围之外的，我们从来不觉得自己是最厉害的那一组，我们只是在我们的能力范围内尽全力做我们能做到的极限。”

MiniMax是在Transformer的基础上做自研，杨斌对此解释道：“Transformer就像是砖头，而模型是房子。当然也会参考别人已经造好的房子架构，但把自己的房子盖好需要完全凭借自己的系统工程能力。”

对于训练模型所需要的算力、数据来源、模型参数以及训练成本，MiniMax暂未透露。

在商业层面，MiniMax可能是国内第一个基于用户反馈跑通大模型的公司。

在三个基础模型之上有一个计算推理平台，将三个基础大模型的能力以一种低成本、高鲁棒性的方式释放给用户。

目前，基于该推理平台MiniMax在去年11月推出了第一款to C的用户产品Glow。通过内容生成与用户反馈这样一种“user-in-the-loop”的方式，来不断迭代基础大模型的AI能力，就像ChatGPT引入的人类反馈强化学习机制（RLHF）那样。

基于AI大模型基座，MiniMax未来还会有更多的产品产生。

杨斌表示，MiniMax的初心是实现通用人工智能，而这必须要靠一个开放的生态。所以从今年开始，MiniMax会逐步开放API，让更多的个人用户和企业用户基于多种模态的大模型构建自己的应用。

MiniMax的商业落地模式与OpenAI相似。2020年，OpenAI在完成GPT-3模型的早期测试之后进行了商业化，向付费用户与企业开放API，AI 独角兽Jasper.ai就是OpenAI的客户；而ChatGPT则是在GPT-3的基础上构建的直接面向用户的聊天机器人应用。

ChatGPT向更多的人普及了AI大模型的概念。而MiniMax已经在AI大模型的道路上布局了15个月，无论是从技术上还是商业落地上，都在创业公司中走在了前列。

大模型的研发需要非常高的投入。MiniMax目前并未披露融资信息，但其在招聘网站表示，“MiniMax由多家知名机构背书，是目前全球该领域成长最快的准独角兽”。

3.创业也许是最好的方式

创业公司做大模型，是更难还是更简单？对此，杨斌也分享了他的思考。

首先，为什么要做文本、语音、视觉三模态？因为目前我们能消费到的几乎所有数字内容都是这三模态的组合排列，包含图片、小说、视频等。只要能做好这三个模态的基础大模型，就能提供非常好的内容生成能力。

杨斌表示，在组织架构层面，为了做好三个大模型的研发，其实并不需要像现在的公司一样，有成千上万个研究员、工程师，每个人都做流水线上的小螺丝钉。由于三个模态不分家，其实只需要一个非常小的团队，来共同维护优化这三个大模型，以及做好用户闭环就可以了。

目前MiniMax的团队人数在100人左右。

杨斌也谈到了创业公司做AI大模型的优势：做AI大模型的系统优化，创业公司的方式更容易实现最高的效率。

杨斌认为，如果在高校做，可能更关注技术的领先指标，优化目标不同；如果用开源的方式做，因为开源本质上是在做局部优化，开源只适合小模块、一个齿轮，而MiniMax要做的复杂系统需要集中力量来做系统性的全局优化，早期阶段开源很难行得通。如果是大厂来做，当然具有非常多资源优势，不过也有很多不可避免的商业和技术包袱。

谷歌就是一个很好的案例。虽然谷歌内部也有比肩OpenAI GPT模型的对话应用语言模型LaMDA，但直到现在谷歌仍不愿向公众发布LaMDA。谷歌完全有能力拿出类似ChatGPT的成果，但一旦出了纰漏，无疑需要承担更高的经济、声誉成本。近期谷歌为了对抗微软匆忙发布的聊天机器人Bard就证实了这一点。

因此，MiniMax团队最终决定既然要做，就从最可能选择把这件事发挥到极致的路径，也就是从头开始创立一家创业公司。

4.首款产品Glow用户数近500万

Glow是MiniMax首款C端产品，和ChatGPT百科全书一样的回答不同，Glow的定位在AI虚拟聊天社交软件，主打聊天、陪伴等情感功能。

Glow的基本玩法是在应用中创建“智能体”——即虚拟AI机器人，可以根据用户意愿赋予其性格，实现实时沟通、互动并建立情感连接。

用户可选择公开智能体，其他用户均可和智能体对话；也可选择不公开，创建自己的专属智能体。此外，用户还能够在搜索框内用关键词搜索有相应特征的智能体来对话。

用户和智能体的每一次对话都会成为对智能体的一次训练，智能体会根据用户对话的引导，对同一问题回复不同答案。

在“话题”功能中，用户可以创建自己感兴趣的话题，还可选择关联自己创建的相关智能体，以便其他用户在该话题下与智能体对话时有更好的对话体验。

Glow还有“记忆簿”功能，能够将用户与智能体的对话封存，在用户需要时调取特定时间的对话内容。

目前来看，Glow的文本理解与生成能力更强，在对话过程中，智能体还不会回复表情包，但偶尔会跳出一个emoji。

对此，杨斌表示，现在技术上已经能够通过一定设置让智能体发送图片，但这种方式略显生硬，有好的解决方案后会进一步改善。

整体来看，和Glow智能体的对话体验较为流畅，且表现出更强的人格性，会给用户带来很强的陪伴感。此外，在对话过程中，涉及“中国”“国家”等词汇，会被判定为敏感词，而无法发送。

Glow现已上线四个月，目前注册用户数量达近五百万。小红书，微博等社媒平台上随处可见用户的截图分享，增速喜人。

AI大模型的商业落地仍然处在早期，MiniMax已经凭借先发优势提前迈出了一步。而从整个行业来看，这场新的AI竞赛可能才刚刚开始。

国内首家多模态AI大模型创业公司浮出水面，首款产品Glow已近500万用户 | 甲子独家

1.核心团队来自全球知名高校与科技公司

2.首家“三模态AI大模型”创业公司

3.创业也许是最好的方式

4.首款产品Glow用户数近500万

推荐阅读

目录