AI-Native数据库正在打造新一代金融基础设施

当IT（Information Technology）向DT（Data Technology）演进时，所有商业实践都会被重塑。金融企业数字化转型需要夯实基础设施，让企业的IT、DT等系统得以升级和改变，进而融入企业的业务创新、运营管理与金融服务等环节，让企业经营可以变得更加敏捷、轻松。

阿拉丁（Aladdin）系统的繁荣，印证着科技改变了华尔街的证券规则。

王樑，数据库领域资深专家。从事IT行业18年，曾担任北京电信数据中心运维经理，中科软科技股份有限公司项目经理；参与国家减灾中心数据中心、某省公安厅数据中心等项目的规划及建设工作。

该系统将复杂的风险分析与综合投资组合交易整合在一个平台上，可以达成每天监测2000+风险因素，每周进行5000次投资组合压力测试和1.8亿次期权调整计算，为逾100个国家/地区的机构提供服务，全球依赖这一平台运作的资金规模超过15万亿美元。

同样，在全球智能投顾领域，Wealthfront是一个令无数金融机构难以望其项背的名字。其客户就职最多的企业依次是Google、Facebook、LinkedIn、Microsoft、Twitter等。与“人机混合”模式的智能投顾不同，Wealthfront身体力行地将金融民主化的理想变成现实，始终站在客户的角度，最大化客户利益。

让每个人都能实时看到同样高质量的数据，源于金融信息化从面向流程驱动转向面向数据化驱动，才能实时进行前端的个性化处置。本质是金融业务底层的基础设施发生了变迁。

一、DT对IT的断崖式洗牌

金融业务底层基础设施发生的变迁，源于DT对IT的断崖式洗牌。首先，算法上摩尔定律失效，不再依靠单个算法性能优化提升，而是通过大规模分布式，以及大规模协同算力来提示算法的效率和性能；其次，互联网带来数据实时消费需求，行为生产的数据被即席处理消费，个人点击流的行为被用作个性化商品推荐，爆发第三波行为数据红利；最后，算法重构世界，在今天的数字经济中，很多基于经验规则流程的商业实践，甚至一些物理的公理定理，都开始让位于数据和算法所训练生成的新的知识。

这是两个赛道的技术，原来的流程驱动的业务Java代码可复用，形成IT时代的信息化系统，而数据驱动的业务是输入、输出一体化，将数据、程序和商业结果一起输入，通过智能化系统来生产出程序，形成DT时代的智能化服务应用。面向资源服务的虚拟化被面向服务的容器化替代，面向数据可视化、面向分析的BI操作被面向执行的AI所替代。

以银行为例，如今银行开始互联网的消费化，越来越强调体验的实时性，交易和分析场景必须一致。传统的解决方案，一般都是采用数据仓库T+1汇聚交易数据，进行复杂分析，形成分析结果。分析结果如果需要支持高并发服务应用，就要导入一个关系型数据库，支持高并发应用服务。在这个传统解决方案中，数据需要从业务系统迁移到数据仓库中，分析结果还需要从数据仓库再迁移到关系型数据库中，支持高并发数据服务，因此数据需要在这三个数据库之间进行传输，这种数据传输产生数据量大、延迟高、数据冗余等问题。要是在分析任务有所变更的情况下，代价会更大。当今业务日趋争分夺秒，都期待可以突破T+1日的桎梏，走向更加实时的响应。

互联网兴起后，应用程序需要每秒支持数十万甚至数百万个事务，每个事务的处理延迟以毫秒为单位。互联网带来的行为数据要远远大于交易数据，而且需要高并发、高扩展、更松耦合的高服务架构能力来完成。举个例子：银行营业厅的个性化理财服务推销，就需要大量数据仓库中的加工分析结果数据，直接推送到一线营业厅的服务人员的终端上，进行实时营销处理。我们再把场景聚集到一个营业厅，假设某天营业厅应用有六万多人，同时在线需要至少五百个并发/秒，理财经理要在某一时刻看到大客户的结息、净值等一系列的数据服务，且都是个性化的，这种个性化服务业务需求是传统数据仓库架构无法支撑的。

首先，能够统一支撑事物处理和工具负载分析的数据库成为必须需求。我们很少看到Google宕机，因为它不是靠单集群可用性来保证，而是靠整个集群的服务来保证性能。在行为数据中诞生了新的架构，就必须生成一个新的分布式架构。近年来，混布数据库在银行承载了很大使命：一方面，满足海量数据强交易场景；另一方面，权益类服务也和其他服务一样，需要计时实时处理。银行通过引入HTAP数据库产品，实现业务交易和数据分析紧密结合，TP侧支持大量交易流水存储，提供交易相关的基础数据；AP侧满足大数据量、复杂的SQL查询，并支持秒级响应，HTAP优化的融合架构提供更高的处理时效并减少数据副本存储量。

其次，数据使用者发生变化，实时高并发处理成为常态。数据生产方式的变化导致数据使用者也发生变化。传统的数据消费者是决策者，领导根据数据分析结果进行宏观决策服务。在个性化服务的时代，数据的消费者不再是少数领导者，还有一线服务人员，一线人员根据数据分析结果实现个性化服务，这让高并发和实时处理成为常态。

如图1所示，在某行信用卡中心项目中，将信用卡核心系统、信审无纸化系统、客户决策管理系统的数据通过数据同步工具与在线交易系统联通后，存入HTAP数据库，来同时支撑简单查询与统计分析。）

图1 某行信用卡中心全量数据在线应用

最后，使用“流批一体”的方式支撑数据分析（离线数据、实时数据）、机器学习、图计算等多条数据流程。在传统解决方案中，批计算平台和流计算平台是两套不同的架构体系，批计算平台一般是大数据平台或者是数据仓库进离线加工处理；流计算平台一般会采用Flink的框架计算实时处理；由于是两条系统、两套算子、两套UDF、两套计算逻辑，一定会产生不同程度的误差，这些误差给业务方带来了非常大的困扰。这些误差不是简单依靠人力或者资源的投入就可以解决的。因此，要构建“流批一体”服务平台，支撑实时分析、实时营销等算法模型的应用，通过混布的HTAP数据库将面向管理的“分析”与面向应用的实时“处理”，以及面向AI的模型训练与图算法等通过数据库实现融合，可以解决困扰用户的架构难题。

试想一下场景：授信企业将所获贷款挪为他用，投资高风险渠道且投资失败，所贷款项全部亏损，不仅影响了企业的再生产和经营过程，而且影响到整个产业供应链的正常运作。不是传统分析不能解决，而是在实际业务办理过程中，供应链金融关系错综复杂，不是简单分析能呈现的。

伴随着社会生活和经济发展模式的全面转型，为从数据中获取更多价值，已经开始需要使用图数据库获取深层次的统计信息。比起传统的信息存储和组织模式，图数据库能够很清晰地揭示复杂的模式，尤其在错综复杂的金融风控业务上效果更为明显，可谓是一图胜过千言万语。能支持流批一体的数据库，更善于处理大量的、复杂的、互联的、多变的网状数据，其效率远高于传统的关系型数据库的百倍、千倍甚至万倍。

如图2所示，在实际智能权益服务平台项目中，将用户的行为数据、实时的交易数据以及地理数据、账户数据和外部数据一起通过“流批一体”汇入HTAP分布式数据库，来支撑智能权益推荐与营销活动策划等实时应用。

图2 智能权益服务平台“流批一体”实时应用

二、AI-Native数据库正在打造新一代金融基础设施

如图3所示，“BigIdeas 2021”提出“Deep Learning”概念，即软件2.0时代。在软件2.0时代，数据结构开始基础设施化，同时高精尖的算法学习流水线化。

图3 Deep Learning Is Software 2.0

软件工程逐步由程序员个体脑力劳动生产，转向数据驱动的算法应用自动生产，软件将进入AI规模化生产阶段。

首先，人工智能做了一次表达能力的升级。我们所熟知的“Google 语音识别”还有“波士顿机器人运动姿态”都说明一个问题：算法具有极强的跨行业属性，人工智能可以借数学语言通达感官远远不及的世界而仍保真。巴塞尔协议对我们的启示是：预期损失是可以量化的，即预期损失率（EL）=违约概率（PD）*违约损失率（LGD）。这需要借助科技工具，精准的对信用进行量化，找到需求风险和利润间的平衡点。AI的强项在于可以以极低成本发现信用风险。

通过自动化特征工程与自动化机器学习建模，依靠海量数据和强大的分析能力，简化模型生产流程，提升算法性能，建立起更全面、更客观的信用体系，是金融机构与信用风险测评之间的纽带。我们曾在证监会共建的金融实验室对56000+资管产品做模型预测，模型预测准确率高达80%，在第一次实践应用中找准4支兑付风险，在第二次实践应用中找准7支。

要知道，金融机构发生的风险所带来的后果，往往超过对其自身的影响。因此预测风险值的价值远高于找准风险，这也是人工智能产品的价值。通过人工智能可以预测出风险值的高低，当风险高达某一数值，金融机构就要采取相应措施了，预防风险成为真正的事故。

某券商资管图谱的风险传播利用复杂网络作为载体，对资管业务中涉及的自然人、企业和资管产品之间的复杂关系进行建模，理顺资金流动方向和风险传递方向，从而达到为经营机构预警，进行资产风险防范的目的。资管图谱方案支持全面的观察和透视资管产品之间的关联关系，并对风险传染过程进行建模与量化。降低资管产品之间的风险耦合度，预防风险扩大。在实践应用中，查询层数大于二层时，相比较于传统关系型数据库查询速度有数百倍到几千倍的提升，千亿规模的资产风险可以秒级发现。

其次，人工智能中复杂网络可做数据结构升维的隐含知识表达。互联网时代的到来深刻地改变了人与人之间的连接方式，同时也为在更大规模上验证人类网络究竟有多小提供了可能。也就是说更大的网络、更小的世界。而传统关系型数据库的每次关联都需要一次log计算，是矩阵模型的计算量的N倍，其性能严重下降。复杂网络则不同，它可以很好地呈现节点和关系网络图谱，在面对数据多样、复杂、孤岛化，以及单一数据价值不高的应用场景时，存在关系深度搜索、规范业务流程、规则和经验性预测等需求，使用知识图谱解决方案将带来最佳的应用价值。

如图4所示，在查找与节点A相关的节点B的属性信息时，使用复杂网络只需进行一次log计算即可获取结果，而如果要通过传统数据库的关系型模型实现，则需要通过至少N-1次jion才能得到结果（N=A节点的一度关联个数），可以发现，如果进行大量此类结算，使用复杂网络的矩阵模型在同等配置情况下将会节省大量查询时间。

图4 jion查询对比示意

在证券行业，原来伞型配资在同一个实体账户上同时有多个配资者进行交易，非常容易抽象的刻画行为。但到了一个实体账户上，同时只有一个配资者进行交易，大量实体账户被使用，隐蔽性越来越强，如何快速捕捉交易风格的快速切换？深度学习通过组合底层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布特征表示。

与人工规则构成的方法相比，利用大数据来学习特征，更能丰富客户数据的内在信息。比如券商的智查系统，可以应用深度学习孪生神经网络模型，建模识别、监测账户的使用一致性，找出潜在配资行为；采用联邦学习技术，实现“数据不出门，可用不可见”，在保障数据安全情况下，最大化利用行业跨机构数据价值，充分发挥行业云的行业价值。

梅特卡夫定律告诉我们，一个网络的价值与联网的用户数的平方成正比。原来一个东西存在供需双方，但在银行数字经济下，消费的数据也反哺给了我们，产销合一，数据的消费者即生产者。与此同时，支撑金融智能时代的基础设施技术需要升级跨越。相信随着人工智能认知计算的普及落地，更多机器数据生产消费，AI-Native数据库将会主导和统一市场，成为新一代金融基础设施。

结语

数据库是基础软件皇冠上的明珠，是每一家公司业务系统的核心。在这个赛道上，甲骨文是一座绕不开的大山，只要市场上不出现替代者它可以一直坐享其成。国产数据库起步晚，在信息、人才、技术等多重窘境之下，很多企业采用“拿来主义”的手段弥补国产技术的空白。要么基于开源系统改进，要么从厂商购买源码授权。这有点像汽车产业，引进的人很多，但是自主升级开发却很难。

但中国大数据云计算的发展，传统数据库技术已经很难支撑，新一代AI原生国产数据库才是新底座。达尔文说：“自然界的竞争，并无必然法则可寻，关键在于个体偶发，是个体自发变异主导着进化的必然。”谁能提供支持混合负载的混布数据库技术，提供流批一体技术服务，谁就能对抗西方在开源系统封装服务领域的现有市场，就能定义新一代金融基础设施。

一、DT对IT的断崖式洗牌

二、AI-Native数据库正在打造新一代金融基础设施

结语

推荐阅读

目录