锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?


本文摘自雷锋网,原文链接:https://www.leiphone.com/category/aihealth/tRy3dnpouRgn7lHf.html,侵删。

2022年4月,由雷峰网《医健AI掘金志》主办的医疗隐私计算·云峰会开幕,从技术普及与案例剖析的初衷出发,邀请一批隐私计算企业CXO,讨论隐私计算的技术路线和在医疗场景下的实际应用前景,共话产业的未来趋势。

锘崴科技创始人、董事长王爽教授发表了题为《隐私计算赋能医疗健康大数据价值流转》的演讲,就医疗大数据隐私保护的背景、医疗大数据安全共享解决方案与底层技术、医疗大数据隐私保护的应用场景等话题进行了分享。

王爽教授是四川大学华西医院特聘教授、同济大学附属医院客座教授。回国之前,王爽教授在美国加州大学圣地亚哥分校UCSD医学院做教职。

过去十余年,王爽教授及其团队一直专注医疗大数据隐私保护相关研究。2014年,王爽教授创办了目前最早也是规模最大的iDASH国际隐私保护计算大赛;2017年,牵头成立了国际同态加密标准委员会,推动制定相关国际标准。

王爽教授表示,医疗大数据的隐私安全保护需要进行全局性的思考。

“首先,我们要弄清楚数据的类型是什么,数据在哪里,由谁在用以及如何在用,从而实现对数据整体安全的保护。在保护过程中,我们既需要满足合规的能力,又需要数据保护的能力。

他认为,隐私计算正是一种能够辅助实现从形式合规到实质合规的全流程医疗大数据安全的技术手段,并且它是目前最优技术解。

以下为王爽教授的演讲内容,雷峰网《医健AI掘金志》作了不改变原意的编辑及整理。

医疗大数据要“放得开”,又要“管得住”

数据正加速向“生产要素”转化。

近些年,国家层面相继出台了数据要素化市场配置的政策文件,今年4月10日又推出了加快建设全国统一大市场的相关意见,这些政策都明确要加快培育数据要素市场,建立健全数据安全、权利保护、跨境传输管理、交易流通、共享开放、安全验证等基础制度和标准规范,深入开展数据资源调查,推动数据资源开发利用。

在地方层面上,多个省、市也推出了聚焦数据要素领域的相关法律法规,并主导成立地方数据交易中心,推动数据要素实现市场化,加快数据资源共享开放进程。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

在数据要素市场发展过程中,存在着一系列问题和挑战。

首先,是法律合规风险。明文数据一旦可见就可能被无限复制,同时暴露数据中所包含的个人敏感信息,以及数据所对应的某个用户或数据提供方的商业机密。

其次,是数据的不可控。数据一旦被泄露或复制,将导致超范围使用甚至被转卖,无法控制其用途、用量,因此也存在数据滥用的风险。

此外,当明文数据被滥用,打破市场供需关系后,会导致数据价值无法定价,也无法形成“要素化”的概念,无法产生大规模的市场流通,数据要素的价值也将无法充分体现。

在国家层面上,数据隐私保护也受到重视,法律法规日趋严格。

2021年9月正式施行的《数据安全法》提出国家将对数据实行分类分级保护,开展数据活动须履行数据安全保护义务、承担社会责任。

2021年11月正式施行的《个人信息保护法》明确要求保护个人信息权益,规范个人信息处理活动,保障个人信息依法有序自由流动,促进个人信息合理使用。

如何在数据开发利用与安全保护上实现平衡?既要能“放得开”,又要“管得住”,传统的数据中心化模式已经不适应当前市场需求,需要引入新技术、新方法适应数据在共享、开放、利用中的隐私保护问题。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

传统数据隐私保护是采用脱敏的方式。

但脱敏后的数据并不等于匿名化数据。过往研究发现,美国HIPPA Safe Harbor脱敏后的数据中,每15000人里依旧有两个病人的信息可能会被恢复。

2020年,我们与国家癌症中心合作,完成了全国最大规模的脱敏数据风险评估,横跨34个省、市、自治区、直辖市,共涉及7000多万病人的脱敏信息,其中大约0.01%病人的脱敏信息,能够结合背景知识恢复出病人的身份。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

因此,脱敏只是对数据的保护与约束,并不等于完全没有风险,它只能够将风险控制在一个较低的范围内。此外,数据脱敏很难有效处理医学相关的基因数据、影像数据的隐私保护。

根据《个人信息保护法》规定,匿名化数据是指经过处理后无法识别出自然人的数据。参照前例,脱敏数据并不等价于匿名化数据,所以同样受到《个人信息保护法》的保护。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

因此,医疗大数据的隐私安全需要进行全局性的思考。首先,我们要弄清楚数据的类型是什么,数据在哪里,由谁在用以及如何在用,从而实现对数据整体安全的保护。

在保护过程中,我们既需要满足合规的能力,又需要数据保护的能力。

所谓合规能力,是指从数据采集源头保证其合规性,对此,现有法律对包括知情授权、数据使用协议、数据使用范围等在内的要求都有明确的规定。

同时在使用过程中对数据进行分级分类,通过数据日志监控匹配是否存在超范围使用,使用后需要进行数据安全审计与可信存证。

在这个过程中,需要一些技术手段来保证从数据采集到使用的合规性,隐私计算正是一种能够辅助实现从形式合规到实质合规的全流程医疗大数据安全的技术手段,并且它是目前最优技术解。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

实现数据“可用不可见”的联合分析

医疗大数据安全共享解决方案包括几个层面,首先是支持安全合规高效。通过隐私保护计算结合区块链等其他技术,提供安全合规高效的医疗大数据,在“可用不可见”的情况下融合多源数据,实现联合分析。

其次是支持医疗监管决策。通过结合区块链实现数据使用全流程可追溯、可监管,对数据的用途、使用方、使用期限、使用范围等都能进行非常细致的控制与监管,为监管部门决策提供数据支撑。

第三是支持医疗数据开放。通过医疗大数据价值转化平台,实现医疗数据跨医院甚至是跨境合作。

通过以上几个目标,该方案还可以支持医疗产业应用,形成围绕医疗产业的聚合,包括在科研、制药以及保险等相关领域的应用。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

医疗大数据安全共享解决方案具备几个核心能力,第一是隐私合规的多维检测。

在医疗大数据从形式合规到实质合规的过程中,对数据知情授权、使用协议、数据的使用范围、数据使用后的销毁等环节进行自动化检测,保证全流程的数据合规,这是医疗数据使用中的先决条件。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

另一个核心能力则是数据的分级分类。对不同级别和不同类型的数据,我们可以采取不同的安全措施,充分利用不同技术能力范围满足法律监管的需求和敏感信息保护的需求。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

这里涉及到隐私保护计算。我们经常提到的隐私保护计算有四个类型的底层技术。

其中一种技术是联邦学习(FL),是指在各个数据源不需要分享个体数据的情况下,通过交换统计信息完成多中心的联合计算,实现“数据不动模型动”的虚拟数据融合。

联邦学习的安全假设条件是在不交换个体数据的情况下,只需要交换一些统计信息。然而,在很多情况下这些明文的统计信息通过推理或者逆向工程的方式,可能推演出数据源的敏感信息,造成隐私泄露。

基于以上考虑,我们提出了安全联邦学习的概念,通过结合联邦学习、同态加密、多方安全计算、可信执行环境等技术,实现数据建模过程中的数据隐私保护。数据源本身,个体信息交换的统计量,模型的梯度,最后生成的全局模型,以及统计分析的结果,都可以在密态下完成计算,并且只有授权用户才能够拿到对应密钥,获得计算结果。

除了联邦学习外,还有一些其他的辅助技术,比如上文中介绍到的同态加密(HE),它是一种基于软件的密码学技术,能够在加密数据上进行运算。同态加密技术在密文下所做的加法和乘法运算完全等价于在明文下进行计算,因此一些计算任务能够在密文下利用同态加密技术完成,从而保护原始数据的隐私安全。

同态加密设计之初是用来解决数据的外包服务问题,包括数据的储存外包与计算外包。

数据拥有方将自己的数据利用同态加密进行加密后,将私钥保留在自己手中,将公钥加密后的数据放到公有云之类的第三方,即可进行储存或计算。当有多个计算方或多个数据源参与时,则需要第三方生成密钥。

多方参与情况下的密钥管理问题,正对应我们上文所说的基于数据分级分类采用不同安全级别的保护措施。

多方安全计算(MPC)是指多个数据参与方以乱码电路或秘密分享的方式,在不需要交换明文数据的情况下,共同完成某项计算的密码学解决方案。

其中最常用的是基于乱码电路实现的安全两方计算,超过两方的计算则通常以秘密分享的方式实现。

在多方安全计算中,基本的安全假设是参与方是不能进行窜谋。因此如果在某些应用场景中参与计算的几方之间不足以信任,可能会存在窜谋风险,那么多方安全计算就不适用。也就是说,对于非常机密的数据,仍需要其他的额外技术提供保护。

可信执行环境(TEE)是指在基于硬件防护能力的隔离环境中进行计算,实现数据安全和隐私保护功能。在CPUGPU空间中形成的隔离区域中运行的代码、程序、数据均不受外界干扰,只有授权用户方可使用。

可信执行环境提供了一套验证机制,使用户能够远程确定所使用的可信执行环境安全性,以及确保在可信执行环境中运行的代码和数据的完整性和安全性,从而实现对某些敏感数据在隐私保护的情况下进行运算。

可信执行环境的优点在于,基于硬件模式,与同态加密和多方安全计算相比能够支持更大规模的复杂运算。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

在上述四个不同技术领域中,我们都完成了一些早期工作。

在联邦学习领域,最早在2012年我们将联邦学习应用于在线多中心医疗数据在“可用不可见”情况下的联合分析,后面会介绍一个相关的案例。

之后联邦学习也被谷歌应用到移动互联网领域,以及被微众银行应用到金融科技领域。

可信执行环境最早于2009年提出,大规模的商业化应用则是2015年底英特尔发布支持SGX功能的CPU之后。

我们是全球最早与英特尔达成深度合作的两个机构之一,通过可信执行环境完成了全球首例多中心跨国罕见病研究,荣获了英特尔杰出贡献奖。

同态加密领域的概念早在上世纪七八十年代就已提出,但是直到2009年,第一个全同态算法(即可做密文下做加法和乘法运算的算法)被Craig Gentry提出。

我们团队在2015年首次将同态加密应用到多中心罕见病研究中,解决了基于同态加密的多中心情况下的基因数据比对和统计分析问题。

2017年,我与ISO、美国国家标准局(ANSI)、IBM和微软等机构共同创办了国际同态加密标准委员会,推进同态加密相关标准制定。

多方安全计算中最著名的是姚期智教授提出的百万富翁问题,它解决了安全的两方计算,之后在1987年被拓展到多方计算。我们在2016年将多方安全计算技术结合联邦学习运用到了国家级医疗网络数据共享过程中。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

对于应用平台架构,我们涉及到医疗机构云、数据中心、省市健康云、专病网络等数据提供方,支持结构化数据、非结构化数据、处方数据、基因数据、影像数据等不同类型的数据,同时也支持卫健委等相关监管机构可通过区块链进行数据使用全流程的监管和审批。

在对外输出能力上,支持临床相关应用、大健康应用、健康管理、公共卫生以及科研制药等不同方面的应用。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

医疗大数据隐私保护的应用场景

医疗大数据隐私保护的场景和应用有以下几种。

一种是多中心目标条件隐私查询。一个病人或者一批病人在医院的临床数据,结合基因检测中心的基因数据或者影像中心的影像数据,可以实现多模态模型研发。

在不同机构之间进行病人数据匹配时,在纵向联邦学习中,我们要跨不同的医院、机构,找到同一批病人的数据进行支持;在横向联邦学习中,提高样本量时需进行去重,去掉在多个中心里面可能重复的病人,避免重复的病人记录影响模型建立。

除了精准匹配外,模糊匹配在医疗领域中亦有应用。临床实验入组时,需选择参考组和被试组,不同的组别对应不同条件,此时需使用模糊查找,根据某一模型和权重,基于用户的不同生理指标,判断这个用户是否满足某一个入组条件,找到相关目标用户。这是多中心目标查找的隐私计算在医疗领域的主要应用。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

另一个常见的应用是多中心隐私数据分析、建模及推理。在某些疾病研究中,单体大数据的数据量或者单个医院的数据维度是不够的,我们需要更大的样本量提高模型的统计效果,或者实现更精准的病人画像,因此需要结合多个中心进行联合计算。

这个过程中,如果不直接交换个体数据,使用隐私计算即可实现在数据“可用不可见”的情况下,通过虚拟数据融合实现多中心建模。

锘崴科技王爽:医疗大数据隐私保护,如何从「形式合规」到「实质合规」?

医疗大数据隐私保护的典型案例

接下来,介绍我们在医疗大数据隐私保护领域做过的案例。

下图是我们在2012年开始做的全球首创的隐私保护超大规模医疗科研网络,通过隐私计算覆盖了美国3000多万病人,这些病人来自17个医疗系统,覆盖200多家医院。

我们做的是比较效果研究。具体来说是,探究不同药物对于同一个病人,或是不同手术方法、器械对于同一种病人所产生的不同效果,从而帮助制定更好的临床指南;

探究同一药物对于不同并发症的病人产生的效果,或是同一个药物不同剂量时的相关效果或副作用,以及药物适应症的扩展。这些场景可以通过基于多中心的研究实现更大样本量、更具有统计意义的结果。

但医疗机构受限于隐私保护政策的限制,以及医院自身对于数据安全的顾虑,无法直接形成大规模数据迁移,将数据都汇总到公共区域。

于是我们通过联邦学习方式,将计算节点部署到各个医院,然后通过一个中心节点将比较效果研究的请求发送到各个计算节点,在本地完成运算后,通过交换加密统计信息完成基于大规模数据的临床研究。

相关阅读 >>

大数据助力打造一流营商环境

对话|数据要素如何创造价值?福建大数据交易有限公司总经理卢梅珍:“线上一平台、线下一大厅” 推动公共数据与社会数据全面融合

用好大数据,办事效率高

大数据看经济活力 各地各行业全力跑出新春“加速度”

强化大数据审计应用 推进审计信息化建设

腾讯增持光启元,后者专注于研发大数据可视化交互管理系统

发改委:进一步推动5g通信、大数据等在现代物流领域应用

真新鲜!吉林人养牛用上“吉牛云”大数据平台

14天调为7天!通信大数据行程卡有重要变化

科技战“疫”:大数据发挥大作用

更多相关阅读请进入《大数据》频道 >>



打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...