数据驱动的AI技术：如何助力企业快速转型升级

在遥远的史前时代，我们的祖先以刀耕火种的方式，开启了与大自然的对话，也宣告了工具作为人类文明进步重要基石的诞生。
工具，这个看似简单却意义深远的存在，自诞生之初便与人类的命运紧密相连。从最初的石器、木棍，到后来的铜器、铁器，再到如今的高科技产品，工具的每一次演变都标志着人类生产力的飞跃，推动着社会文明的进步。它们不仅是人类双手的延伸，更是智慧的结晶，也是征服自然、改造世界的利器。
AI工具：企业快速发展利器
转过头来再看当下，AI已跃升为科技界的璀璨明星，IT和互联网等领域纷纷将其拥入怀中，基于AI的应用如雨后春笋般涌现，人们也愈发感叹：现在的APP越来越“聪明”了！
然而，对于众多传统行业而言，将AI融入日常业务并非易事，技术门槛高且场景融合仍待深入探索。因此，他们更渴望获得易于上手、高效实用的AI工具。

亚马逊云科技大中华区产品部总经理陈晓建
“亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景，能够帮助企业轻松应对海量多模态数据，提升基础模型能力。当前，亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座，在确保用户业务和数据安全的前提下，将数据的独特价值赋予基础模型和生成式AI应用，加速企业业务增长。”谈到AI与企业应用的结合，亚马逊云科技大中华区产品部总经理陈晓建给出了这样的解读。
显而易见，除了数据基础之外，企业还需根据自身应用场景选择合适的AI工具，方能借助AI的力量推动业务发展。Perplexity公司便是一个典范，它通过融合传统搜索、客户数据以及大型语言模型的推理和文本转换功能，创造了独一无二的价值。这家公司正在打造全球首个对话式答案引擎，自2022年12月推出以来，其网站和移动应用迅速赢得了用户的青睐，每月活跃用户数达到1000万，仅11月份就吸引了5300万访问量。这种快速增长是传统营销方式所无法比拟的。
三种方式应对不同应用场景
陈晓建表示：在探索如何将企业的自身数据融入生成式AI的应用中时，我们发现了检索增强生成（RAG）、微调和持续预训练这三种方式，可将数据与大型语言模型相结合，以提升业务效果。
在生成式AI中，高质量的输出通常需要依赖大量的上下文信息。企业可以将自己的知识库（如数据库或其他知识文档）与生成式AI结合，通过向上检索等方式为大语言模型提供辅助能力。这种方法相对简便，许多企业已经在使用它来构建应用。这就是检索增强生成（RAG）。
微调技术涉及利用与特定目标任务相关联的数据对模型进行额外的训练，目的是提升模型在特定任务上的表现。微调的难度位于预训练和RAG（检索增强生成）之间。它适用于多种场景，如角色理解、输入内容解析以及输出格式的控制等。
持续预训练这种方式门槛较高，需要大量的数据。企业需要将日常业务中产生的数据持续输入到大模型中进行训练，以适应业务的变化。与从头开始构建训练环境不同，持续预训练是基于现有的大模型进行的。

亚马逊云科技的Amazon Bedrock产品已经实现了三种关键能力，许多客户正在使用这些能力来训练他们业务环境下的定制化大模型。关注模型就是关注业务效果，而坚实的数据基础是成功的关键。因此，亚马逊云科技有一个重要的观点：无数据、不模型。
AI应用的基石：数据存储
在AI时代，可以看到存储解决方案不仅需要承载海量数据，还必须提供足够的性能，并要有可控的成本。由于多模态模型的流行，数据类型在规模和形态上存在显著差异，这要求我们拥有强大的数据存储能力。
陈晓建表示，Amazon S3是亚马逊云科技最早推出的数据存储云服务。它已经发展成为一个能够完全满足微调或预训练基础模型对数据存储要求的平台。Amazon S3拥有超过200万亿个对象，每秒处理超过1亿次请求。它还提供了细粒度的控制、合规性审计功能和生命周期管理功能，确保数据的安全性和合法使用。Amazon S3也是构建数据湖的理想选择，亚马逊云科技上已有超过20万个数据湖应用。
Amazon S3可支持高效、经济地大规模数据分析，适用于人工智能、机器学习和高性能计算等多种应用场景。在生成式AI时代，对数据存储和处理性能的需求日益增长。为了满足这一需求，亚马逊云科技还推出了Amazon S3 Express One Zone，这是一项新的服务，能够实现低于10毫秒级别的快速访问，许多客户已经通过这项服务结合他们的业务实现了显著的性能提升。
AI时代，无服务器架构助企业快速成长
在现代的数据处理环境中，关系型数据库只是实现向量检索能力的一种选择。随着搜索功能的广泛应用，各种数据库类型如关系型、键值、图数据库和文档数据库等都在各自的领域内发挥着重要作用。然而，当涉及到向量检索时，专门引入一种全新的向量数据库可能会带来学习成本、配置新资源的成本以及数据迁移的复杂性。
在当前的观察中，许多客户更倾向于在其现有数据库中集成向量检索能力，而非引入全新的数据库系统。这样做的好处是避免了额外的学习成本、迁移成本和可能的许可费用。同时，数据的集中存储和管理有助于缩短响应时间，提高性能。
特别是在GenAI（生成式人工智能）时代，快速上线和占领市场成为许多公司的首要目标。因此，为各种数据库提供向量检索能力变得尤为重要。这不仅能够满足客户的性能需求，还能确保数据的统一管理和高效检索。
此外，随着对快速开发和部署的需求日益增长，Serverless（无服务器）架构方案因其灵活性和成本效益而受到青睐。对于没有专人进行运维或DBA工作的公司来说，Serverless方案无需预测未来性能需求，也无需进行繁琐的运维操作。在业务高峰期，它可以自动扩展以满足需求，而在业务空闲时，又可以自动回收资源以节省成本。
因此，对于当前阶段的客户来说，为各种数据库提供向量检索能力和Serverless能力，是满足其快速开发和部署需求的关键。这不仅能够提高数据处理效率，还可降低运维成本和复杂性，为公司在竞争激烈的市场中赢得先机。
在AI应用落地方面，Amazon Music利用先进的技术分析用户和歌曲的特征，将这些信息转化为向量，以此来提升音乐推荐的准确性。通过使用Amazon OpenSearch，Amazon Music成功地将1亿首歌曲转化为向量，并对它们进行了索引，从而为全球用户提供了实时的音乐推荐服务。
目前，Amazon Music在Amazon OpenSearch中维护着10.5亿个向量，并具备处理每秒高达7,100次查询的能力，有效地支持了其推荐系统的运行。
生成式AI的构建并非易事，它更像是飞轮的结构，需要一个正向循环来推动其发展。为了实现这一目标，企业需要利用多种云服务来构建一个坚实的数据基础。这样，企业就能高效、安全地将海量数据与基础模型结合，创造出具有独特价值的生成式AI应用程序，满足最终客户的需求，并产生更多数据。
随着这些应用程序的投入使用，它们会产生新的数据，这些数据反过来又能进一步提升模型的准确度。通过持续的微调或预训练，模型能够变得更加智能，更具行业专业性，从而为用户提供更好的体验。这种不断循环的正向反馈机制将为企业带来源源不断的动力，推动其业务不断成功。

推荐阅读

目录