7 月 4 日,蚂蚁集团宣布面向全球开发者正式开源可信隐私计算框架“隐语”。开源发布会由中国信通院隐私计算联盟支持,中国科学院院士、密码学家王小云,中国银行业协会首席信息官高峰、中国信通院云大所所长何宝宏、中国计算机学会秘书长唐卫清及副秘书长王新霞等嘉宾现场及在线参与。会上,蚂蚁集团和中国计算机学会(简称,CCF)联合设立“CCF—蚂蚁隐私计算专项科研基金”,将致力于隐私计算前沿技术研究。
图:蚂蚁集团开源可信隐私计算框架“隐语”
在数据要素流通大背景下,行业面临网络空间安全与数据安全的新挑战。隐私计算是兼顾数据安全和数据流通的关键技术,涵盖了密码学、系统安全、机器学习、可信硬件等多种学科,包含多方安全计算(MPC)、联邦学习(FL)、可信执行环境(TEE)、可信密态计算(TECC)等多种技术路线,涉及众多专业技术栈,要实现完善并保障安全并非易事。
在数据密态时代各个行业各种场景的实际应用中,往往是多条技术路线相结合,单一的隐私计算技术框架难以适用于复杂和交叉的场景。如果每遇到一个新场景,都需要从头开发,不但技术资源重复浪费,而且数据安全和隐私合规很难保证,成为了隐私计算大规模落地应用的阻碍之一。
针对上述种种痛点,蚂蚁集团历时 6 年,自主研发了“隐语”,以安全、开放为核心设计理念,通过良好可扩展的架构设计,用一套通用框架统一支持了当前包括 MPC 、FL、TEE、HE、DP 在内的多种主流隐私计算技术,并可对多种技术进行灵活组合,支持 TECC 等创新隐私计算技术,针对不同应用场景提供不同的解决方案。
“隐语”项目地址
隐语是什么?
那么,“隐语”究竟是什么?
本质上说,“隐语”是一套可信隐私计算框架。
隐私计算技术是一项涉及安全、机器学习、BI 分析、安全工程等多种技术的综合技术体系,隐语针对行业特点,对安全协议、算法、数据分析等进行分层设计,从而让各类型的专家可以专注于熟悉领域的开发,而上层用户可以平滑切换各种能力进行体验和开发。
可信隐私计算框架“隐语”,以安全、开放为核心设计理念,内置 MPC、TEE、同态 等多种密态计算虚拟设备供灵活选择,提供丰富的联邦学习算法和差分隐私机制。通过良好的分层设计及开箱即用的隐私保护数据分析及机器学习等功能,降低隐私计算开发者和使用者的技术门槛,助力隐私计算更广泛应用到 AI、数据分析等场景中,解决隐私保护和数据孤岛等行业痛点。
据蚂蚁介绍,“隐语”框架有如下几点优势:
- 完备性:针对隐私计算技术方向多,且各方向优劣势不同的问题,通过密文计算设备对不同技术进行抽象,使得同一套框架能支持所有主流的隐私计算技术,且可以灵活组装,以适应不同场景的需求;
- 透明性:针对隐私计算技术底层技术与上层应用耦合性强,导致每种底层技术的更新都重复开发上层应用的问题,通过编译器和 IR 层的抽象,将底层协议与上层应用分离,上层可以对接传统数据处理的 SQL、Pytorch、TF、JAX 框架,底层安全协议和技术的更新上层不感知;
- 开放性:针对当前隐私计算没有可以容纳多方共同参与开发的良好抽象的框架,通过明密文编程范式的抽象,使得非安全背景的开发者也可以开发出安全的隐私计算算法;
- 联通性:针对多种隐私计算技术无法互通的问题,采用混合协议设计,使得不同隐私计算技术之间的数据也可以相互联通,让组建大型数据网络成为可能。
如果用一种更浅显的方式来介绍隐语,可以将隐语比作一个综合型公式。这个完整的综合型公式又由不同的分式组成,这些分式可以对应隐语的 AI & BI 隐私算法。每个分式中所使用的加减乘除等基础逻辑运算,则对应着隐语底层核心的设备与原语。隐语所做的事情,一方面是将隐私计算所涉及的各主流技术分支分别抽象为加减乘除等具备基础功能的“设备和原语”,基础符号越多意味着组合计算的方式越多;另一方面,是继续向上建设 AI & BI 隐私算法层,提供像勾股定理一样的具备特定功能的公式,这些公式开箱即用,可供我们在解决完整的应用题时自由调用。
“隐语”为什么选择开源?
数据已成为比肩土地、劳动力、资本、技术的“第五要素”,因其相较于传统要素所具备的可共享、可复制等特点,故而作为新动能推动经济增长具有倍增效应,另一方面也正是因为这些特点,平衡其价值与安全才能可持续地发挥其重要作用。
隐私计算技术做为技术支点,在技术与市场两方面还有待各方在实践中不断探索前行:一方面,蚂蚁自 2016 年开始推进隐私计算技术及其规模化应用,可信隐私计算框架“隐语”是蚂蚁集团多年耕耘的创新集成之作;另一方面,开源开拓了一种创新协作方式,跨越时空限制汇聚技术合力,为数字文明时代技术创新降本增效。
但隐私计算技术当前面临的问题是,技术路线多、开发成本高。
在隐私计算技术的开发过程中,开发者需要有一个技术框架,用来基于实际业务场景、以及功能来设计。实际情况是,如果开发者想使用联邦学习,那么就要使用 A 框架来做研发;如果想使用多方安全计算(MPC),那么又要使用 B 框架来做研发,如果想使用可信硬件,还要去熟悉所选硬件的架构才能真正开始使用。但现实的业务需求是,经常是需要多个技术一起来使用的,那么这时候就会出现繁琐、重复的开发工作量。
为了让开发者收获“开箱即用”、更加兼容通用的开发体验,蚂蚁集团经过6年多的研发和实践检验,开发了可信开放隐私计算框架“隐语”,提供丰富的联邦学习算法和差分隐私机制,可支撑现在市面上的隐私计算主流技术,供开发者灵活选择,开发者可以简单、快速上手,大大降低了算法、研发技术人员使用隐私计算技术的门槛,让隐私计算更加普惠。而开源作为一种创新的协作方式,可汇聚合力,为数字文明时代技术创新降本增效。“隐语”的开源,对于技术研究和产业应用都有着重要意义。
“隐语”面向普通技术开发者,无需达到大公司级别的设备和资源,,大大降低门槛,让隐私计算更加普惠。而开源作为一种创新的协作方式,可汇聚合力,为数字文明时代技术创新降本增效。“隐语”的开源,对于技术研究和产业应用都有着重要意义。
“隐语”开源协议选择了 Apache-2.0,代码托管在 Github 及 Gitee。目前,“隐语”已向社区开放了多方安全计算和联邦学习的核心代码。对于算法 / 模型研发开发者,可以使用隐语提供的编程能力,方便快捷地将更多算法和模型迁移来,并得到隐私保护增强。对于底层安全开发者,可将底层密码 / 安全研究成果嵌入隐语,完善密态设备的能力、性能和安全,转化实际业务应用。
与会专家认为,我国发展自研技术迫在眉睫,各方应加快形成合力推动信息技术应用创新产业发展的步伐。蚂蚁集团将沉淀多年的可信隐私计算框架“隐语”进行开源,旨在汇聚多方形成技术合力,推动整个行业隐私计算技术的发展。
在本次发布会上,中国计算机学会秘书长唐卫清、蚂蚁集团副总裁兼首席技术安全官韦韬共同宣布,联合设立“CCF—蚂蚁隐私计算专项科研基金”,推进隐私计算前沿探索与技术落地,搭建产学研合作平台,支持学者开展与产业结合的前沿科研工作。
该基金将在未来一个月内面向全球富有创新思维与研究能力的学者,开放“开源隐私计算平台的安全性研究”、“隐私保护下的端云推荐模型”、“后量子 MPC 研究”等 16 个隐私计算相关前沿探索类课题和 11 个实践论证类课题,为隐私计算研究产出前沿、高质量的学术研究成果。
本文转自 公众号:AI前线 ,作者冬梅,点击阅读原文