国内信贷市场的“大”数据往往具有高维、稀疏、异构等特点,这对有效风控带来了很高的挑战。为此,360 数科充分利用 AI 技术对个人与小微客户进行关系挖掘,构建了个人 - 企业双中心的大规模金融关系图谱。
在 11 月 5-6 日举办的 AICon 全球人工智能与机器学习大会(北京站)2021 上,我们邀请了 360 数科大数据风控研究院院长沈赟博士来分享关系图谱在金融行业的实践应用。
在正式分享前,我们采访了沈赟博士,以下为采访整理,希望对你有所启发。
InfoQ:您在 360 数科任职数学科学家,数据科学家主要是做什么工作?
沈赟: 数据科学家的主要职责是将数据驱动的方法,例如各种机器学习、统计方法,应用到日常业务中去。相比在高校中,企业中的科学家还是以落地应用为主,和那种皓首穷经的科研还是有很大区别的。我个人觉得,在企业中做科学家还是很有成就感的,因为做出来的研究很快能够落地,能够为广大的客户带来实实在在的价值。
InfoQ:看到您有在顶级期刊和会议上发表学术论文,您怎么看学术论文的价值?
沈赟: 我认为评价学术论文质量的好坏有一项重要指标,就是该研究是否可以真正落地到实际场景中。学术研究归根到底是要帮助人们认识世界、改造世界,否则就是无用的研究了。
举例来说,我们在顶级运筹学期刊上面发表了一篇关于生存分析的创新研究—GBST(梯度提升生存树)。一方面,该研究在理论上对现有的生存分析方法做出了有效拓展,能够处理高维度、高度异质化数据,从而能够更好地适配应用在信贷场景中。另一方面,我们将该方法使用到了信贷中的智能获客、智能营销、智能定价定额等各个细分环节中,取得了非常高的实用价值。
InfoQ:从您的角度看,人工智能为金融行业带来了哪些变化?国内外发展情况有何不同?
沈赟:AI 对金融行业的赋能,主要是提升了金融服务的效率和便利性。
首先,AI 促进了金融服务的在线化,简化了各种流程,能够触达更多用户,用户体验也更好。举例来说,原来客户常常只能去线下柜台办理金融业务,耗时很长,体验很差,而现在只要有智能手机,就能随时随地操作,这与人脸识别、语音识别和智能对话系统等 AI 技术的长足发展和广泛应用是分不开的。
其次,风控是金融行业赖以生存的基础,而基于各类大数据的 AI 技术,极大地提升了金融行业识别风险、预测风险的能力,这一方面降低了金融行业的成本,另一方面也能够服务更多的用户,真正实现普惠。
相比国外来说,目前国内,至少在信贷领域,尤其是从金融科技层面来说更加发达。这一方面源自于国内的互联网企业很早就开始将 AI 技术应用到金融领域中,且监管在早期也一直持不干预(laissez-faire)的态度,而国外始终处于高度偏保守的金融监管之下,所以相比国外,国内的金融科技发展得比较充分。
另一方面,前几年国内在数据方面的监管相对宽松一些,也有利于 AI 技术的广泛应用。我们都知道,没有大数据,AI 技术是很难施展的。当然,近期以来,在金融和数据方面的监管环境趋严,对整个金融科技生态带来了很大的挑战。
InfoQ:智能金融涉及的内容较广,除去智能风控、智能营销等,还有哪些应用有人工智能的身影?
沈赟: 首先是质检系统,我们会加大人工智能助手的使用强度。在电销过程中,人工智能助手会实时为工作人员提供回复建议、答复思路及参考答案,以帮助工作人员进行业务引导和转化。严格意义上来说,这并不是新技术,只是 AI 渗透深度方面需要进一步加深而已。
另外,从趋势上来说,如何缩小智能机器人与人工之间的差异,让机器的反应更人性化、让用户在感知层面做到无差别的体验是我们下一阶段的工作目标。
InfoQ:智能风控涉及贷前、贷中以及贷后,可以详细介绍一下这里面都涉及哪些模型吗?
沈赟: 风控的核心就来自于人的信用,但在征信领域,中国还有漫长的路要走。中国有大量的征信未覆盖人群,这就需要用技术方式挖掘信息,并给出个人的信用评级。
对于数据科学如何赋能信贷业务,大数据风控分为贷前、贷中和贷后三个阶段,每个阶段都需要大数据与人工智能技术的参与,这也是金融科技区别于传统金融机构的最大之处。
贷前主要涉及用技术的方式判断是否给借贷者授信,其中分为反欺诈和信用风险判断两大块。
反欺诈需要辨别出以骗款为目的的黑色产业。在这方面,我们通过构建关系网络,以知识图谱等形式找出风险点。
以抱团欺诈为例,我们可以在 GPS 的一个精度范围内对借贷者与群体进行分析,如果一个借款申请出现在同一个地理位置,并且连接在同一个 WiFi 或者 4G 信号基站,就很有可能被判定为抱团欺诈风险。
另外,我们还参考手机联系人的关系网络,如果同一批申请人存在相同的联系人关系网络,可能也存在欺诈风险。同时,我们还会维护诸如黑中介电话号码库之类的数据库,通过通讯记录与联系人关系,找到与黑中介关联上的人,并认作潜在的欺诈风险。
在贷前的信用评分中,我们利用历史数据作为有监督机器学习的测试数据集,将借贷人群区分为好人与坏人。之后,通过规则条件、用户分层、用分类器将用户做信用分的区分,以拒绝低信用分的用户,提供高额度给优质信用分用户。
进入贷中环节之后,就需要动态通过数据来调整用户的贷款额度与利率,通过数据为互联网用户运营提供策略。
最后贷后环节,这是一个通过机器学习辅助收款的过程。团队通过机器学习模型可以判断用户还款能力,并将用户分类,比如分为容易收款的用户、不容易收款的用户,他们就会通过不同的运营方式进行催收,完成整个金融周期的风险管理。
InfoQ:数据安全、数据应用以及大数据风控方面,360 数科是如何做的?
沈赟:首先,数据安全方面,360 数科建立了非常严格的数据管控体系,我们采取了包括数据加密等一系列措施保证数据的安全。层层保护下,这些数据在确保不被轻易泄露的同时,也能很好地防止黑客攻击。
另外,在数据应用方面,我们对所有信息均进行了脱敏处理,比如姓名、家庭住址这些私人信息,数据分析人员是拿不到的。当然,就数据应用目的来讲,个体信息并不受关注,模型搭建过程一言以蔽之,就是通过机器学习手段,去发现千万量级数据中的统计规律和群体的特征。
在风控层面,我们的核心竞争力在于精细。一方面,对客群的划分比较细致;另一方面,对金融生命周期不同阶段,也做了精细划分和投入。针对不同的客群我们设置了不同的模型,面对不同阶段,相应的策略也会做调整,这样我们便可以为更多的人提供金融服务,同时也能更好的把控风险。
现在很多金融机构的通用做法是把所有用户混在一起,这导致他们对用户的理解没有那么深刻,风险评估也没有那么好,所以产品和服务会相对保守。
对于金融科技行业而言,技术的应用在大方向上是大同小异的,但是细节层面却千差万别。比如说拿到原始数据后怎么进行加工处理,怎样输出有价值的用户特征,如何应用到模型中去,这些细节都会影响最终的效果。
我们可以将数据看作原材料,不同金融机构看成是厨师,那么就算原材料都一样,不同厨师的刀工、手艺、对火候的掌握都是不同的,做出的菜也是千差万别的。
InfoQ:经过这一系列的智能风控措施,360 数科做出了哪些成就?
沈赟:目前,360 数科拥有顶级的风险管理能力和成熟风险往绩,尤其是疫情期间信贷成本的管理,以及关键信贷指标的快速恢复。截至 2021 年第二季度,关键信贷指标稳定在创纪录的良好水平,M3+ 进一步降至 1.19%,而入逾率和 M1 回收率分别保持在 5% 和 91% 左右。
InfoQ:据您推测未来智能金融会有哪些发展方向?
沈赟:技术本身的发展有一个路径和惯性,金融的本质是服务,即为用户提供一个什么样的金融产品,也就是说技术始终要为业务服务。我们的任务是应用最能帮助用户、最能有效服务用户的技术。所以相对于技术创新和研发,如何让技术更好地服务用户才是最重要的。
有很多人会把所有的业务需求都用同一个模型去建模,实际上这是不合理的。所有模型的建立都是基于假设,基于特定适用范围的。比如说人脸识别技术,随着公众需求的增加,它经历了诞生、滥用、质疑、反思、成熟的过程。所以技术的进化是需要和业务互相促进的。
对我们来说,首先要理解业务,其次需要知道所适配的模型是什么样子,最后才能用技术语言将这些业务需求具体落地下来。与实际应用相辅相成的技术,才会在未来有发展趋势一说,单纯的为了技术而做的技术,必将消亡。
InfoQ:金融领域您会关注哪些方向的突破?
沈赟:目前,金融行业的一大痛点是随着数据保护的监管力度越来越强,原有的一些数据交互方式以及在此基础上构建的风控模型与策略可能就行不通了。这使得我们正在大力研发联邦学习相关的隐私计算技术。这能帮助我们在保障个人隐私的前提下,从技术上实现对各类数据要素的融合,从而达成更好的风控效果,为金融机构和用户提供更高质量的服务。
另一方面,我们将继续大力挖掘自身的数据潜力,比如在复杂关系网络层面进行更进一步的探索,实现突破。
本文转自 公众号:AI前线 ,作者李忠良,点击阅读原文