8月31日,第一批国产大模型通过了“生成式人工智能备案”,可以开放公众服务。
一石激起千层浪,对AIGC强烈好奇,为国产应用疯狂打call,文心一言对话刷屏朋友圈,普通人和科技圈都嗨翻了。
不到24小时,文心一言APP就飙升苹果商店免费榜首,成为首个登顶的中文AI原生应用。
这两天的狂欢也说明了:生成式AI的黄金时代,正在迎来真正的破晓。
很多人可能会说,我不懂什么大模型,也不会开发应用程序,这波生成式AI的热度跟我没关系。
中国有句古话“女怕嫁错郎,男怕入错行”,今天,男女都怕入错行,都希望掌握一场技术革命中最有价值的核心资源,获得发展。
就像汽车司机不用精通动力学和热力学,却受益于工业革命和蒸汽机。KOL和电商主播大都不会写程序,却受益于信息时代和互联网。同样,AI时代的大部分受益者,也并非都来自核心技术领域,而是能够运用好新技术、新资源的人。
在文心一言APP重新唤起大众应用热情的时候,本文希望冷静剖析一下,普通人究竟有什么机会,如何搭上生成式AI这趟“时代顺风车”。
人人都能适应AI,这可能吗?
大众对生成式AI的热情,已经点燃。我们团队的小伙伴们也都第一时间成了“自来水”,开始“调戏”文心一言。不过,和前几个月不同的是,我们拷问AIGC的角度,也变了。
我们不想用几个零散的的问题,来笼统地评价一个大模型的基本能力。
现在,已经有许多专业机构,通过规范的测量基准benchmark,对大模型进行更为全面、科学的考察,这些权威报告更值得读者参考。比如IDC最新发布的《AI大模型技术能力评估报告,2023》显示,文心大模型3.5拿下12项指标的7个满分,得到“综合评分第一,算法模型第一,行业覆盖第一”三个绝对第一。
我们也不想用一些脑筋急转弯、抖机灵式的问题,“为难”一下大模型,大家看完了乐子,还是不知道除了有限的展示案例之外,大模型究竟能怎么跟自己的日常和工作结合。
所以,我们决定从三种具体的任务场景出发,通过文心一言和ChatGPT的实际效果,来考察一下,生成式AI在不同应用场景下的能力究竟如何?每一个人都能在这些场景中,找到大模型与自身的关联,或者带来一些灵感。
第一个场景:容错率高,人工参与度低。
娱乐、聊天、创意文案、设计草稿等等的生成,对大模型的幻觉和胡说八道,有一定的包容度,交给AI可以大大解放生产力。
比如在文旅领域,通过生成式AI来生成数字人导游,与观众进行交流互动,提供导览服务,增强沉浸式旅游体验,设计文创产品,是一个对ToC和ToB都非常有价值的应用场景。
我们考察的首要能力,就是理解。
如果大模型都无法准确理解用户所说的话、传达的情绪和意图,那生成效果当然也不会理想。这方面,我们发现文心一言的理解能力,进步真的飞快。
坦率地说,三月的时候,我们曾让文心一言和ChatGPT,判断句子中表达的情绪时,文心一言的理解是不如ChatGPT的。而现在再测,最新版的文心一言,已经能很好地理解图文中所隐含的情绪了。
第二个测试,是中国文化理解。
与中国用户互动,生成式AI对中国文化和语言的理解,是基本要求。文心一言的中文能力,当然一如既往的稳,我们也对ChatGPT的回答比较宽松。这一次测试的关注点,不在于比拼ChatGPT的中文有多强,而在于进步有多大?
结果有点失望。当我们询问:“柔情似水,佳期如梦”,这句话是什么意思?
文心一言三月份就给出了正确答案,这次的回答也很不错。而ChatGPT无论是几个月前还是现在,回答都是编造的。上一次说,这句话出白唐代诗人李清照的《如梦令》,最新的回答是出自唐代杜牧的《秋夕》。
这个问题也说明,ChatGPT的中文水平,不仅有大模型的幻觉问题,会胡说八道,而且对中文的优化和重视,并不太够,才会进步缓慢。
当然,大家对大模型和生成式AI的期待,不仅是“闲聊”,更希望作为“生产力工具”,在办公、金融、咨询等多个领域提高工作效率。
我们测试的第二个场景:容错率中等,需要一定的人工参与。
比如办公领域,使用AIGC来生成PPT、写文案、咨询报告、读论文等,AI可以作为“副驾”大大减少人的工作量,人只需要判断、纠偏、决策就好。要求生成式 AI 拥有较强的语言逻辑、事实准确等基本能力,同时有丰富的插件来辅助提高效率。
试想一下,如果写一个报告还有逻辑错误,轻则被骂,重则走人,大模型的逻辑能力,对打工人来说可太重要了。这方面,文心一言和ChatGPT的能力已经基本一致了。
比如询问:香蕉的平方根是多少?二者都能够准确地识别出逻辑陷阱。
再换个角度,跨语言的国际交流,是很多行业和企业日常工作中都会涉及到的。如果你是一个外贸办事员,想要将产品上架到海外平台,文心一言能行吗?
我们测试了一下,文心一言APP一键翻译四国语言,多语言类任务的工作效率会大幅提高,成本也会下降。
当然了,这些都是短语。对于打工人来说,处理商业报告、论文、撰写长文章,才是特别花费时间精力的地方。
百度智能工作平台如流,就基于文心一言的能力发布了「超级助手」,通过各类插件完成指令任务,包括查询日程、创建会议、设置待办、申请休假等。
插件的好处,是不需要很高的学习门槛和成本,就能轻松调用AIGC相关能力,轻松搞定。
而由于OpenAI的访问限制,我们目前还没能上手体验ChatGPT的插件能力。这也说明,ChatGPT的可及性和便捷性,是远不如文心一言的,给很多企业和个人使用AIGC设置了障碍,增加了额外的成本。
第三个场景,则是低容错率、人工参与度高的严肃领域。
比如金融投资、科学任务、医疗诊疗、自动驾驶等,这些领域应用AIGC进行分析和预测,对于内容的准确性、可靠性、专业性、严谨性,要求很高。要求大模型拥有极高的安全可靠可信,因此目前AIGC落地的进展相对较慢。
生成式AI必须要掌握专业的知识点,给出详细、准确、具体的解释,才能在一些严肃专业场景中,协助完成各项任务。
那么,文心一言和ChatGPT有没有潜力,进入这些严肃复杂的领域知识呢?
让它们介绍一下量子力学,都答对了:
说了这么多,不难看出,基于国产大模型的生成式AI,基础能力已经可以满足“人人皆可适应AI”的需求了。
既可以陪人闲聊,也可以帮助人们方便快捷的做专业的工作,总有一款应用场景适合你。
目前,以文心一言为代表的国产大模型,综合能力已经可以媲美ChatGPT,部分能力甚至超越GPT 4。这一点究竟是怎么做到的呢?
AIGC黄金时代,“四有青年”带来的礼物
文心一言全面开放服务之后的火爆景象,说明大家都不希望错过AI这趟时代列车。加速推进智能革命,真正让每一个人和企业都用上AI,是今天摆在大模型面前的必答题,而谁是这次变革的担当者呢?答案是敢为先锋的“四有青年。”
如果我们冷静客观地看待这个热度,会发现即将爆发的AI原生应用热潮,也伴随一系列挑战,比如模型能力加速迭代、算力昂贵稀缺,国产大模型面临的竞争是前所未有的激烈。这样的背景下,国产大模型必须加速成长,保持技术先进性的同时,支撑产业落地。
这恰好是百度这些年一步步沉淀的能力,能给用户和开发者掏出的“时代礼物”。
百度CTO王海峰分享过,“做文心一言不是头脑发热,是十余年的技术积累和产业实践的水到渠成,我们在人工智能四层的技术架构上都有很深的积累,尤其是框架层和模型层联合优化发挥了非常大的作用。”
应对接下来AIGC应用大爆发的机会和挑战,文心一言已经做好了准备:
有技术,依托百度NLP强大算法基础,自研深度学习平台飞桨最先进的大模型训练和推理部署技术,让文心大模型得以快速迭代,为接下来更多AI原生应用的创新和涌现,打下了能力底座。
有知识,百度是最大的中文搜索引擎,并且花十余年时间积累了世界上最大的多源异构知识图谱,为大模型提供数万亿数据和数千亿知识,可以让生成式AI与更多行业和场景任务,更加有针对性的结合。
有算力,两代通用 AI芯片“昆仑”的量产及应用,为大模型落地提供强大算力支持。百度智能云千帆大模型平台,提供了灵活高效的智能计算基础设施。通过文心与飞桨联合优化,提升模型的训练吞吐速度,从而全面实现了以更小资源消耗达到大模型训练目标。为基于文心一言的应用大规模创新,提供了算力保障。
有生态,助力各行业的生成式 AI 应用需求落地,文心一言的生态优势非常明显。以最新的插件机制为例,插件是开发者进入某项新技术的最短路径,也是开发者急切期待的。在刚刚过去的WAVE SUMMIT上,王海峰表示,未来百度将与开发者共建插件生态,共享技术创新成果。
新一轮的黄金时代,普通人对AI的热情和渴望,比以往任何时候都更加强烈。“四有青年”百度的选择,是给予用户更多礼物,让更多人可以用文心一言来触摸AI、解决问题、创造价值,搭上“时代顺风车”。
中国科技的历史机会,真的来了吗?
作家格拉德威尔(Gradwell)在《异类》(Outliers)一书中,介绍了这样一个事实:人类历史上最富有的75人中,有1/5出生在1830—1840年的美国,其中包括大家熟知的钢铁大王卡内基和石油大王洛克菲勒。因为他们赶上了美国内战后的工业革命浪潮。第二个高峰年代就是上世纪末,比尔盖茨、乔布斯、拉里佩奇等人赶上了信息革命的大潮。
对于这个国家和人民来说,AI是数百年来一遇的机会。这一次,中国终于能够把握住影响全人类的新科技,在人工智能领域与世界同步,甚至更快。
而文心一言等大模型的开放,会给这场智能革命,带来前所未有的加速度:
首先,是能力自证。只有让大家真用真体验,都用上国产大模型,亲身感受大语言模型的理解、生成、逻辑、记忆等核心能力,才能真正建立起产品信心和市场信赖度。这是国产大模型的当务之急,而文心一言作为第一批全面开放服务的国产大模型,也确实向大众证明了中国AI技术的硬实力。
接下来,是技术领先。
大模型的能力提升,非常依赖于用户反馈的强化学习,用户越多、反馈越多,就学的越多、表现越好。此前没备案通过之前,只能以内测、邀测等形式,向部分个人用户、企业行业用户有限开放。 “反馈飞轮”一定程度上影响了大模型的体验迭代。
文心一言全面开放服务后,用户猛增。从这个节点开始,国产大模型可以在庞大的用户规模和反馈基础上,加速迭代进化,未来有望赶超GPT-4等海外大模型,让中国在人工智能领域保持领先位置。
更进一步,是产业繁荣。
备案上线后,面向大众ToC场景的大模型更为积极地提供服务,用户能直接检验AIGC的产品质量,愿意为之付费;AI受众大幅增加,会吸引更多应用开发者来大显身手,大量AI原生应用通过API调度资源……商业模式建立,促进国产大模型的良性发展,让中国的AI产业化和产业AI化更加深入。
举个例子,大模型的应用爆发,会带动AI基础设施建设,进而促进国产计算硬件、软件生态的兼容、壮大,合力来解决算力卡脖子的问题。再比如,文心一言全面开放之后,开发者和行业企业会更加积极地拥抱大模型,探索生成式AI的落地可能性,带动国內应用软件和产业智能的新一波热潮。
勒庞说:没有传统,就没有文明;没有对传统的缓慢淘汰,就没有进步。这就是科技产业最让人振奋的地方。
每一次科技浪潮,都有代表性的企业和个人,幸运地站上了时代的浪潮之巅。而没能投入到上一个技术大潮中的人,也不用担心错过,因为技术一直在进步,新的智能革命已经拉开了序幕,而这一次,中国科技没有错过。
生成式AI的黄金时代,刚刚被国产大模型拉开了一角,是你我即将亲历的又一个历史机遇。无论你是普通用户、应用开发者,还是行业观察者和看客,都不妨给与它们更多期待。