2023-06-06 16:23:05
隐私计算是在保护数据本身不对外泄露的前提下,实现数据共享、分析、计算、建模的技术集合,旨在达成数据“可用不可见”的目标,充分保护数据和隐私安全的同时实现数据价值转化与释放。其常见技术路线有多方安全计算(MPC)、联邦学习(FL)、可信执行环境(TEE),各有优缺点,具体如下:
优点
安全性高:数据加密基于严格的密码理论,不依赖信任任何参与方、操作员、系统、硬件或软件,各方对其数据拥有绝对控制权,能保障基本数据和信息不被泄露。
计算准确度高:在计算过程中能保证结果的准确性。
缺点
计算性能瓶颈:大量使用密码学算法,导致计算性能受限。例如几十万数据样本的计算时长要比明文方式慢数倍甚至数十倍。
优点
解决数据特征单一问题:根据参与方数据源分布不同,分为横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦学习联合多个参与者具有相同特征的多行样本进行学习,可增加模型训练的样本总量;纵向联邦学习联合多个参与者共同样本的不同数据特征进行学习,能增加模型训练的数据维度;联邦迁移学习在参与者间数据特征和样本重叠都很少时,利用相似性将源领域模型迁移到目标领域,解决了训练阶段数据特征单一的问题。
算力成本小:各参与方计算的数据体量未增加,降低了算力成本。
缺点
存在数据泄露风险:利用中心服务器收集的模型梯度及权重等信息,存在反推出参与方数据分布的可能。
模型准确性受影响:较难规避某参与方恶意提供虚假数据影响模型准确性。
操作效率受影响:各参与方计算能力不一致、网络连接状态不稳定等会影响操作效率。
优点
通用高效:具有通用和高效的优势,可以单独用于隐私计算,也可以和其他技术结合来保护隐私,计算性能与明文计算基本相同。
缺点
硬件投入高:交付模式太重,需要较高的硬件投入。
可信度受影响:跟国际CPU厂商绑定较深,会影响TEE技术的可信度。
目前,MPC应用场景最广,FL在联合建模时最为常用,TEE仍在探索软硬件结合的交付模式。同时,多种技术结合应用于同一个隐私计算项目也开始出现,如某些金融科技公司推出的隐私计算一体机,将基于硬件的TEE和MPC及FL无缝衔接,以提升计算及安全性能。随着行业标准的建立,将降低市场认知成本,实现产品间的互联互通,促进行业朝更加标准、规范的方向发展。