从2022年的ChatGPT,到2024年的Sora,生成式AI和大模型技术正以不可思议的发展速度颠覆着我们的认知。刚刚过去的一年,国内的“百模大战”更让大模型站上了市场“风口”,通过更为泛化的能力,赋予了千行万业数智化无限的想象空间。
根据第三方数据显示,2023年中国人工智能产业规模已达到2137亿元,预计到2028年,中国人工智能产业规模将达到8110亿元,五年复合增长率达到30.6%。对比原本大模型未出现“涌现”能力的人工智能产业规模值,据测算大模型带来的产业“加成”比例在2028年或达到32.9%。
也正因此,国家目前正积极从政策“牵引”以及基础设施投资角度,开展智算中心建设,推动AI数据标准建立,推动AI大模型赋能行业应用;与此同时,越来越多的中国企业也积极拥抱AI,希望获取新技术浪潮带来的先发优势,让生成式AI和大模型技术迸发出来的全新数字生产力,帮助企业释放出更多的新质生产力。
但也要看到,企业拥抱AI的过程并不会“一蹴而就”,如何在企业环境中更好的落地和应用AI,如何利用AI技术使企业获得更高的价值?不仅如此,当下整个社会的算力供需关系依然紧张,因此如何选择可靠的算力底座基础设施,同样都是企业需要面对的挑战和难题。
在此背景下,在日前举办的甲骨文数据·AI论坛2024上,甲骨文公司不仅全面介绍了自身端到端的生成式AI“全栈赋能”优势,并生动演示了其融合向量数据库在AI领域的多种应用,希望帮助企业在行业领域中更好地利用AI技术结合企业自身数据,构建专属AI和融合数据平台,打通企业AI应用落地的“最后一公里”,赋能企业发展新质生产力,助推中国经济高质量发展。
用“SQL”实现AI融会贯通
众所周知,ChatGPT的“横空出世”拉开了生成式AI和大语言模型产业的蓬勃发展的序幕,同时也带火了向量数据库和RAG(检索增强生成技术),它们的出现,不但大大简化了数据访问和分析的过程,还极大地提高了数据利用的效率,使企业能够通过生成式AI更快地洞察市场趋势、优化业务流程、提高决策质量。
根据调查显示,目前超过80%的AI落地应用基本都是RAG,其利用向量相似度检索技术搜索文档,然后组合成“提示词”喂给大模型,大模型再生成最终的答案,这就有效规避了过往大模型容易出现的知识更新不及时和幻觉等典型问题。与此同时,要利用好RAG技术,企业则要经过数据提取、数据索引、检索、生成四个阶段,而每个阶段都有不少的难点。
这个过程往往就需要向量数据库发挥其价值,但在具体的落地实践中,很多企业会发现传统向量数据库在系统架构、索引乃至存储方案上都不是为向量专门设计的,包括不能很好解決向量检索需求,往往需要多次查询并结合其他检索才能完成;还有当数据量过大时,在写入效率、查询延时和并发性能上均存在“瓶颈”等等,因此很难满足企业在大模型时代的要求。
正如甲骨文公司副总裁及中国区董事总经理吴承杨所言:“现在市场上通常的做法是企业需要把数据单独拿出来放到向量数据库中,大家可以想象一下,如果企业要实现某一个AI应用,需要把数据库中的各种各样的数据都单独拿出来在向量数据库做一遍,还需要再结合应用层的需求,这个过程往往是非常有难度的,即使做出来了,还要面临安全问题、权限问题等等。”
甲骨文公司的做法则是“截然不同”的,以Oracle Database 23ai为代表的甲骨文融合数据库的做法是,企业只需要与自身的数据库进行自然语言交流,在几分钟之内甲骨文的融合数据库就可以帮助企业开发新的应用程序,无需编写任何代码,即可实现跨越系统与所有的数据进行交互,实现生成式AI的“流水线化”,并且支持甲骨文OCI和第三方本地化部署的大模型集成,以及支持包括与LangChain以及LlamaIndex等第三方框架的紧密集成。
甲骨文这种独特的做法也深受客户的欢迎。吴承杨提到,一家拥有众多代理人的保险公司,以前代理人往往需要接受大量的培训,或是自行查阅公司内部众多的政策文件与资料。在与甲骨文建立合作后,这家公司基于 OCI 以及 Oracle Database 23ai 构建了保险代理人知识库,该系统支持代理人使用自然语言轻松查询专业知识,为各业务板块提供了统一的算力支持、数据服务,从而降低了运维成本和架构复杂度,提高了用户体验满意度,实现了智能化知识管理。
而这背后的“强大武器”就是甲骨文融合数据库通过用“SQL”实现了AI的“融会贯通”,背后的逻辑是:相比传统数据库,甲骨文融合数据库是真正将向量数据库“嵌入”到内部的,换句话说只有甲骨文数据库真正把向量数据库和关系型数据库整合在了一起,并形成融合的SQL查询,由此产生巨大的业务价值,而这也意味着企业在构建向量数据库之后,就可以使用标准的SQL语言轻松构建和运行AI算法和模型,同时还可以利用甲骨文融合数据库中的AI向量搜索能力,查询任何数据。
这也就相当于为开发者和企业提供了一把钥匙,可以更加轻松的打开关系型数据库、非关系型数据库、JSON、图数据、空间数据库等等,其核心优势总结起来可以概括为:既大大扩展了企业数据的使用范围,同时又大幅降低了企业AI的应用门槛。
吴承杨形象地比喻说:“当大家要乘坐地铁10号线时,只需要进入其中任意一个站点,那么就可以通往目前10号线上的所有站点,而地铁10号线就相当于甲骨文的融合数据库,任意一个站点就相当于不同的数据库类型。更为奇妙的是,过去大家通过数据开发AI应用需要采取很多种不同的方式,但今天只需要简单的自然语言就可以实现了。”
对此,甲骨文公司中国区技术咨询部高级总监李珈也表示:“我们所讲的AI应用是一个完整的AI前期开发到最终完成的流程,对企业的数据而言,任何数据都可以向量化,有难度的地方是采用什么算法做向量化,如何给原始数据比如文档做拆分,向量化在数据库内做还是数据库外做,用什么方法装载到向量数据库中,怎么做索引,怎么根据所有有效信息去做连接筛选,提高系统的召回率,在这整个AI流程里甲骨文都是可以通过SQL来完成的,一条SQL完成对相关的所有数据类型的各种条件下的复杂访问,包括向量、图、JSON、Text搜索、关系型数据等,这是甲骨文融合数据库最有价值和最为强大的地方”。
“三位一体”加速AI应用落地
事实上,甲骨文用“SQL”实现AI的“融会贯通”,仅仅只是其融合数据库在市场上所独有的“融合、简单、安全”三大优势的一个“缩影”,而这背后也体现了甲骨文数据库在AI新时代所秉承和坚持的愿景,那就是通过生成式AI,帮助企业轻松生成和运行现代应用和分析,并且能够支持任何规模的项目和数据,最终让企业的应用和数据的使用“化繁为简”。
首先,从融合的角度来看,过去几年整个市场比较流行“分库分表”的方式,但甲骨文一直坚持走“融合”的路线,早在2019年甲骨文就提出了“融合数据库”的理念,其核心是将多种数据库、数据类型和工作负载融合到一个数据库之中进行统一的管理,最大化简化开发和集成,其目前支持包括关系型数据、空间数据、图数据、区块链数据、文本、XML、JSON、传感器数据等各种数据类型,且不同数据类型都实现了完全一致、可扩展、可用和安全,而当AI时代来临,甲骨文又将向量数据库“嵌入”其中,真正帮助企业搭建起了一套面向AI时代的现代数据平台。
对此,吴承杨补充强调说:“现代数据平台之所以非常重要,就在于在这个平台上可以运行不同的数据类型,同时甲骨文还通过SQL将它们全部贯穿起来,SQL既可以和向量数据库实现连接,又可以通过大语言模型的方法去生成SQL,SQL又在这个平台上可以融会贯通的切入到各种数据类型,这种融合的优势在AI时代对企业开发和利用人工智能是非常有帮助的,可以说也为未来的数据平台架构的构建指引了一种方向。”
其次,从简单的角度来看,一方面,甲骨文让“AI for Data”架构变得简单且可扩展。以最新发布的Oracle Database 23ai为例,除了支持使用标准的SQL轻松构建和运行AI算法模型,向量搜索可以与业务数据搜索相结合之外,企业也可以使用GoldenGate在整个企业范围内部署矢量搜索,且可以借助Exadata支持任意规模的任务关键性AI,同时所有AI功能也都受益于Oracle任务关键型的一致性、可扩展性、可用性和安全性。
另一方面,甲骨文也通过Oracle APEX支持开发人员更好地构建生成式AI,最新发布的APEX AI Assistant可以通过自然语言快速创建符合业务目标的应用程序;通过对话式AI对话框,内置接入国内外大语言模型,可以将AI增加到应用程序之中,以及支持使用应用程序副本构建企业级应用程序等。数据显示,目前全球的APEX开发人员已达85万,基于APEX创建的应用更是高达2100万个。
最后,从安全的角度来看,生成式AI和AI大模型技术的出现,在给企业带来新机遇的同时,也引发了新型攻击、数据合规、数据主权等安全风险,而甲骨文融合数据库也一直坚持“你的数据只能为你所有,你的模型只能为你所用”的理念,在安全和隐私方面持续为企业“保驾护航”。
例如,Oracle Database 23ai新增加的特性“True Cache”,就始终具备数据一致性、应用透明、高性能等优势,此外Oracle Database 23ai也具有“无锁列值保留”、透明应用连续性(TAC)等能力。同时,针对数据主权、容错和超大规模的应用而设计的“RAFT”能力,也支持企业业务数据的分布式存储,确保数据满足全球合规安全要求。
另据吴承杨透露,Oracle Database 23ai也即将发布“本地版”,“本地版”除了具有甲骨文融合数据库的所有优势之外,未来也支持企业接入任意的国内大模型,因此凡是未来有安全和权限管理的企业,只要基于甲骨文的现代数据平台开发,那么对甲骨文而言都不是问题,都可以最大化的确保企业的安全和隐私的保护。
客观地说,在此之前,AI的能力往往都是大公司的“专利”,而在生成式AI和大模型爆发的新时代,只有让千行万业都能获得AI的能力,才能推动整个企业数智化的转型和变革,而甲骨文融合数据库以其独有的“融合、简单、安全”三大优势,显著加速了企业AI应用的落地,真正意义上让人工智能成为了企业迈向AI新时代的“水”和“电”。
端到端生成式AI的全栈赋能
不仅如此,作为全球最早拥抱AI的科技公司,甲骨文还始终从用户的需求出发,以客户成功为先,将AI引入企业架构堆栈每一层,以端到端生成式AI的“全栈赋能”能力,帮助众多的企业能够“站在巨人的肩膀上”打造差异化竞争优势,更好地拥抱AI新时代,加速企业的数智化转型。
可以看到,甲骨文的AI解决方案都是基于高性能的AI基础设施构建,可在整个甲骨文堆栈中轻松集成,包括能够向AI提供数据的Oracle Database, Oracle Autonomous Database 和 MySQL HeatWave 等数据库产品,还有内嵌生成式 AI 功能的ERP、HCM 和CX等SaaS应用。
特别是在AI基础设施领域,甲骨文OCI也持续做到了“快人一步”,具体来看:
一是,在“算力底座”方面,早在2022年10月,甲骨文就和NVIDIA宣布了一项长期合作伙伴项目,将NVIDIA的完整加速计算堆栈引入OCI;2023年3月,双方进一步扩大合作,在全新的OCI Supercluster上运行战略性NVIDIA AI应用。
由此,甲骨文OCI也成为NVIDIA的超大规模云技术提供商,能够面向全球提供大规模的AI超级计算服务 NVIDIA DGX Cloud;在此基础上,今年3月,双方再度携手,为全球客户提供主权AI解决方案,同时结合甲骨文的分布式云技术、AI基础设施和生成式AI服务,加上NVIDIA的加速计算和生成式AI软件,共同支持企业和组织部署AI工厂,推动AI技术更为广泛的应用和落地。
据甲骨文公司中国区技术咨询部高级总监嵇小峰介绍,甲骨文OCI从第一天起就致力于提供先进的AI和HPC基础设施,甲骨文专门做了网络的优化,构建了一套无损网络(Lossless Network)体系,让整个GPU的Scalability(可扩展性)变得更加强大。
也正因此,OCI Supercluster可以实现多个GPU协同工作,同时甲骨文即将发布高性能文件系统,可以更好满足客户的训练需求。凭借新的 OCI Compute 裸机实例、超低延迟 RDMA 网络和高效能储存,OCI Supercluster 的速度显著加快。OCI 将会推出采用 NVIDIA B200的机型,最大化帮助企业应对AI模型不断增长的需求。
二是,在“AI落地”方面,甲骨文OCI推出Oracle Generative AI服务,为企业提供包括Llama、Cohere等大模型支持;还提供了单独的“DAC模式—Dedicated AI Cluster”,通过专有的GPU资源,保证企业在AI应用落地时实现性能和安全的“双重保障”;此外,新推出的Oracle Code Assist借助于Oracle庞大的代码库,对模型进行了调优,并针对OCI上的Java、SQL和应用开发进行了优化,能够为开发人员提供根据企业的优秀实践和代码库进行定制的情境化推荐方案。
其中,针对当下中国企业的出海热潮,甲骨文通过OCI也打造企业全球化发展的“技术底座”,通过更广泛的区域覆盖、更安全合规、更高性价比,助力中国企业加速全球化发展。例如,锐明技术基于OCI构建以AI为核心的商用车安全和信息化解决方案,它通过使用AI+视频监控技术保障商用车行车和公共安全,业务模块包括驾驶员行为检测、高级辅助驾驶系统等。这个解决方案离不开OCI的强劲算力支持,帮助其构建数据预处理、标注、训练和推理平台。更重要的是,OCI全球数据中心的广泛分布,也满足了锐明技术业务全球化和数据合规的需求,能够保障业务稳定高效运行,且具有综合性价比的优势。
三是,在“生态协同”方面,甲骨文还宣布与Google Cloud、微软及OpenAI达成了重磅合作协议。其中,甲骨文和Google Cloud携手合作,让客户可以将OCI和 Google Cloud 技术结合使用,从而加速应用的迁移和现代化,这一合作不仅将 Oracle Database@Google Cloud 推向市场,还为金融服务、医疗卫生、零售、制造等全球各行各业的企业带来了诸多优势。
与此同时,甲骨文将 Microsoft Azure AI 平台扩展到OCI,为OpenAI提供更多的算力支持,而OpenAI也将加入全球数千家AI创新者的行列,在OCI AI基础设施上运行AI工作负载。
嵇小峰表示:“此前甲骨文就和微软Azure搭建了全球的互联服务,这一次甲骨文又发布了和Google Cloud的高速互联,而且重要的一点在于甲骨文和Google Cloud之间数据的传输是不收流量费用的,因此这也给用户在不同云之间的迁移带来了非常好的体验,而这也正是Oracle一直践行的多云战略的持续落地的体现。”
根据甲骨文发布的2024财年年报以及第四季度的业绩报告显示,得益于在甲骨文OCI中训练AI大型语言模型的巨大需求,甲骨文在第四季度的营收持续增长达到143亿美元,FY24全年营收达到530亿美元,这些创纪录的销售额推动了RPO增长44%,达到980亿美元。此外,仅在第四季度,Oracle 就签署了30多项人工智能销售订单,总金额超过125亿美元,可以说这也进一步印证了甲骨文端到端生成式AI“全栈赋能”优势,而这也是甲骨文实现创纪录营收的关键底气和实力所在。
总的来看,站在AI产业大变革的今天,甲骨文基于自身四十多年在数据库领域持续的创新和投入,以及最佳实践和经验,推出的甲骨文融合数据库,加上遍布全球的OCI基础设施,还有持续在Oracle Fusion云应用软件中全面引入AI,都会进一步释放出甲骨文端到端生成式AI全栈架构的“乘数效应”,打通AI应用落地的“最后一公里”,为千行万业创造出更多具有想象空间的新业态、新服务和新模式,激发企业打造出更多的新质生产力,其价值无疑重要而深远。