随着《网络 安全法》、 《数据安全法》和《个人信息保护法》三部基础性法律的正式施行,「数据安全」毫无疑问已经成为当前时代最值得关注的重要议题之一。 达摩院2022十大科技趋势指出数据安全保护与数据流通是数字时代的两难问题,隐私计算是破解之道。
具体来看,隐私计算解决了三大痛点:1)合规经营,规避政策风险,合规使用数据开展业务;2)数据孤岛,可实现原始数据不出库,完成数据融合目标;3)信任问题,可支持在数据本身不对第三方泄露的情况下完成操作。
隐私计算关键技术:
1)多方安全计算:在无可信第三方情况下,安全地进行多方协同计算;
2)可信执行环境:将各方数据汇聚到一个安全区域内,通过硬件技术对数据进行隔离保护;
3)联邦学习:在保证多方数据不对外输出的前提下,由中心方进行协调建模;
4)数据脱敏、差分隐私、同态加密;
5)区块链与隐私计算。
四大技术流派
说明:从数据流动(数据流出/不流出)和数据计算(集中/协同计算)两个角度对相关技术进行了梳理和分析,数据安全研究院梳理出隐私计算四大技术流派。
01
多方安全计算
多方安全计算(Secure Multi-Party Computation,简称MPC)是密码学的一个重要分支,最早源于1982年图灵奖得主姚期智院士提出的“百万富翁”设想——“两个富翁的财富是1-10之间的整数,如何能在不透露双方财富的前提下,比较出谁更富有?”
基于多方安全计算的数据流通产品技术架构
来源:中国信通院
多方安全计算核心是通过设计特殊的加密算法和协议,实现在无可信第三方的情况下,在多个参与方输入的加密数据之上直接进行计算,每个参与方不能得到其他参与方的任何输入信息,只能得到计算结果。
自从姚期智院士提出第一个通用的安全多方框架(Yao’s CG,姚氏加密电路)以来,目前已经逐步完善计算框架,涉及到不经意传输(Oblivious Transfer,OT),混淆电路(Garbled Circuit,GC),秘密共享(Secret Sharing,SS)和同态加密(Homomorphic Encryption HE)等关键技术。
I技术特点
多方安全计算能够在不泄漏任何隐私数据的情况下,让多方数据共同参与计算,从而实现“数据可用不可见”,具有很高的安全性。但是多方安全计算也面临一些问题,例如:密码学复杂的运算过程造成的计算性能问题,安全问题,不同技术间的加密数据不能互通造成的新的数据孤岛问题等。
I实践应用
国内以华控清交为代表,主要是转化姚期智院士和徐葳老师的科研成果。华控清交的方法是采用多方计算理论,包含同态加密等计算引擎,在指令集、编译器层面,把加法和乘法等操作替换成密文计算的体系,把明文计算从根本上转换成密文计算。最终实现了数据“可用不可见”且“可控可计量”,为数据要素化和数据的大规模交易流通做技术准备。
02
可信执行环境
可信执行环境(Trusted Execution Environment, TEE)的核心思想是构建一个独立于操作系统而存在的可信的、隔离的机密空间,数据计算仅在该安全环境内进行,通过依赖可信硬件来保障其安全。
可信执行环境的最本质属性是隔离,通过芯片等硬件技术并与上层软件协同对数据进行保护,且同时保留与系统运行环境之间的算力共享。
基于可信执行环境的数据计算平台技术架构
来源:中国信通院
Intel SGX,在应用程序的地址空间划分出一块被保护的区域(称为“Enclave容器”),将合法软件的安全操作封装其中,为容器中的代码和数据提供保护。这种模式通过内置在CPU的内存加密引擎和Enclave实现了隐私信息的安全运行和保护。
数据沙箱技术,通过构建一个可信计算环境,使得外部程序可以在该平台上进行执行。隐私数据可以以裸数据的形式放在该平台中,由摆渡过来的外部程序利用这些数据来进行模型加工,但数据需求方人员不能进入数据沙箱查看调阅真实的全量数据,从而达到保护数据隐私的目的。
I技术特点
TEE通过隔离的执行环境,提供一个执行空间,该空间有更强的安全性,但其技术本身依赖硬件实现,必须确保芯片厂商可信,同时其功能和性能等也受到硬件的制约。
I实践应用
目前主要的通用计算芯片厂商发布的TEE技术方案包括X86指令集架构的 Intel SGX( Intel Software Guard Extensions)技术、AMDSEV( Secure Encrypted Virtualization)技术以及高级RISC机器( Advanced RISC Machine,ARM)指令集架构的 Trustzone技术。
国内计算芯片厂商推出的TEE功能则包括兆芯ZX-TCT( TrustedComputing Technology)技术、海光CSV( China Security Virtualization技术,以及ARM架构的飞腾、鯤鹏也已推出自主实现的 TrustZone功能。
数据沙箱技术,目前国内学术界以中国工程院院士方滨兴为代表,在国内产业界奇安信、百度、京东数科、UCloud等各大厂商均有推出数据沙箱相关产品。
03
联邦学习
联邦学习在2016 年由谷歌最先提出,用于解决安卓手机终端用户在本地更新模型的问题。
联邦学习本质上是一种分布式的机器学习技术,在保证多方数据不对外输出的前提下,由中心方进行协调建模,其共有模型的性能与传统方式中心化训练出来的模型性能基本一致。
联邦学习参与方一般包括数据方、算法方、协调方、计算方、结果方、任务发起方等角色。
基于联邦学习的数据流通产品技术架构
来源:中国信通院
根据参与方数据的特征空间和样本空间不同,联邦学习分为 纵向(vertical)、横向(horizontal)及迁移学习(transfer learning)。
纵向联邦学习适用于多方用户重叠部分大,但用户特征重叠部分小的场景;横向联邦学习适用于用户重叠少,但用户特征重叠多的场景;迁移 联邦学习适用于用户及用户特征重叠均少的场景。
网络资料
I技术特点
联邦学习的本质是分布式的数据治理架构,最后仍然需要依靠密码算法来解决隐私问题。
I实践应用
目前联邦学习已在小微企业贷款的数据分析场景、保险业、计算机视觉、供应链预测、反洗钱模型等领域有较好的应用。例如腾讯云计算基于“联邦学习”的多方数据学习“政融通”在线融资项目。在保障数据安全和个人隐私的前提下,使用多方数据进行联合建模,按照风险可控原则合理确定用户范围和服务规模,向金融机构提供风控产品,增强金融机构风控能力。
在以上提到的关键技术中,多方安全计算通用性高和安全性高,但计算和通信开销大,性能相对较低;TEE通用性高,性能强,但开发和部署难度大,而且需要信任硬件厂商;联邦学习综合运用MPC、DP、HE方法,主要用于AI模型训练和预测。
网络资料
从技术路径上看,各国际企业相对更关注基于可信执行环境的隐私计算。2019 年成立的 Linus 基金会旗 下 的 机 密 计 算 联 盟 ( Confidential Computing Consortium)便聚焦于此,关注基于可信硬件和云服务生态的数据安全。
国内隐私计算厂商起步较晚,但产业化发展的速度较快。自2018年进入快速启动期,蚂蚁集团、百度、阿里、腾讯等互联网龙头企业,富数、同盾、星环等成熟的网络安全及大数据公司以及华控清交、锘崴科技等初创型科技企业接连入局。此外,微众银行、平安集团等行业数据高度聚合企业涌入隐私计算领域,开展数据增值业务。
国内隐私计算厂商
来源:国家工业信息安全发展研究中心
除了以上关键技术,同态加密、数据脱敏、差分隐私、区块链等技术也常应用或辅助于隐私计算,具体如下:
04
其他相关技术
数据脱敏(DataMasking)是指使用脱敏规则对数据中某些敏感信息进行数据的变形,从而达到保护敏感隐私数据的目的。通过数据脱敏产品,可以有效防止企业内部对隐私数据的滥用,能够满足企业既要保护隐私数据,同时又保持监管合规,满足企业合规性。
差分隐私(Differential Privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。
同态加密(HomomorphicEncryption)是一种加密形式,允许直接在密文上进行特定形式的代数运算得到加密的计算结果,将其解密后得到的明文结果与直接在明文上进行同样的运算得到的结果保持一致。本质上,同态加密是指这样一种加密函数,多被用于委托第三方对数据进行处理而不泄露信息。
数据脱敏、差分隐私、同态加密等技术通过对数据进行变形、扰动、加密等操作,可保障数据流出时的隐私安全。但是它们也有一些局限性:1)数据脱敏容易遭受攻击;2)差分隐私降低机器学习准确率;3)同态加密运算效率低。
05
区块链与隐私计算
隐私计算和区块链有天然理论连接,两者可互为补充、相辅相成。将区块链技术引入隐私计算,能够一定程度上解决多方协作、多方信任和数据共享流通的问题。两者融合可以实现原始数据在无需出域与归集的情况下,完成多节点间的协同计算和数据隐私保护。
目前,国内学术研究方面以浙江大学教授、中国工程院院士陈纯为代表,主要研究内容包括区块链的安全监管、基于区块链技术的数据共享等关键核心技术。国内产业方面,趣链科技有限公司实现了基于区块链技术的BitXMesh数据共享与安全计算平台。
06
发展趋势
1、向全域隐私计算迈进。随着专用芯片、加密算法、白盒化、数据信托等技术融合发展,隐私计算有望跨越到海量数据保护,数据源将扩展到全域,激发数字时代的新生产力。比较有代表的是像翼方健数,以隐私计算为切入点,由点及线,向数据产业价值链的全环节延伸扩展,提供围绕数据全流程、全生命周期管理的技术、产品和服务。
2、增强与区块链等其他技术融合。尽管隐私计算技术被寄予厚望,但是其只能解决部分问题。隐私计算技术与云原生、区块链以及人工智能等多种技术结合,才能真正满足数据合规需求膨胀期的要求。目前市场反馈也显示,客户在选择上,更倾向于采用多种技术融合的引擎,从而解决多方面的业务需求。
参考资料:
数据安全研究院:《技术报告 I “隐私计算”江湖风云再起 四大技术流派谁主沉浮?》
中国信通院CAICT:《中国信通院闫树等:隐私计算发展综述》
工信头条:《隐私计算关键技术发展趋势展望》
隐私计算联盟:《2021 隐私计算行业观察》
国家工业信息安全发展研究中心:《中国隐私计算产业发展报告》
中国信息通信研究院:《隐私计算白皮书(2021年)》
- END -
行业知识交流分享,结识扩展人脉圈层