当前位置：首页 > 科技 > 正文

隐私和便利我全都要：一位科学家的隐私计算史

启示号
科技
1周前
520

1.一个电表引发的隐私矛盾

2009年，美国总统奥巴马站在演讲台上说：“我们要建立一个更坚强、更智能的电网……”

随即，美国能源部门宣布投资34亿美元资助智能电网技术的开发，“投资智能电网”自此成为美国的一项国策。

在这个庞大的智能电网计划里，电表是重要的一环。

电厂送出来的电，没用完的，要么转送到别处，要么就直接浪费掉了，所以能源部门就设想：只要成千上万的智能电表分布到每一个角落，每隔15分钟上传一次数据，电网就能根据实际用电量来实时调度电力，用多少就送多少，减少浪费。

这个设想当然很好，可智能电表的推广进展很快受阻。

“我感到自己正在被监视。”

“电厂有什么权力这么做？！”

类似的声音此起彼伏，人们害怕频繁上传用电量会暴露自己的隐私。

乍一看，有点杞人忧天，就像之前国内有人担心辐射，宁愿手机没有信号，也不准运营商在自家附近建基站。

但电表隐私问题还真不是杞人忧天，研究人员发现：每15分钟上传一次的电量数据，真的可以用来搞监视！

王爽当时在美国读计算机博士，他发现，利用一些特定的算法，很容易就能通过用电数据推算整个屋子里的活动情况：“你什么时间做饭、用电脑、看电视、洗衣服等等，全都能计算出来。”

这些用电数据一旦被滥用，坏人可以拿来监视别人，商家可以做所谓的“大数据营销”。例如，商家先得知你家是否用了某种医疗器械、你的私人时间是如何度过的，再给你不同的商品定价和广告策略。

事情到这，就陷入一个死循环：国家要节能，电网就得高效，电网要高效，数据必不可少，可人们又不愿意给数据。

当时有人想到一个妥协方案：降低上传数据的频率——原本15分钟上传一次，现在改成每天上传，或每周上传。

但这样一来，电网调度的实时性和效率也会大大降低，频率降得太低，跟抄表员十天半个月上门来抄电表也没多大区别。

“有没有可能，既能让电厂用到这些数据，又不暴露个体的隐私数据？”

王爽发现，电厂想要的其实只是统计信息，比如一片区域在特定时间内的总用电量、平均用电量、高峰用电量等等，并不需要个体数据。

而这类问题在数学上是有解的。

举个例子：

爷爷想知道家里的仨葫芦娃这个月一共挣多少钱，但是哥仨谁都不想暴露自己的收入，怎么办？（你可以思考5秒再往下读）

有一个办法是这样的：

第一个葫芦娃在脑子里想一个很大的随机数，加上自己的收入，把求和结果告诉第二个葫芦娃。

第二个葫芦娃再加上自己的收入，给求和结果第三个葫芦娃，第三个葫芦娃加上自己的收入，把结果交给第一个葫芦娃。

第一个葫芦娃再减去自己一开始的那个随机数，就得到三个人的总收入，交给爷爷。

整个过程中，大家谁也没暴露自己的收入，却一起计算出了总数。

王爽很快研究出一套方案，可以做到既让电厂拿到各项统计数据（中间计算结果），又不暴露单个用户的用电量。

他把方案写成论文，发在学术期刊上。（当然比上面葫芦娃的例子复杂得多的多，葫芦娃只是为了帮大家理解为什么“既使用数据，又不暴露数据”是可以做到的）。

由于这篇论文，王爽和“隐私计算”结下不解之缘。不过严格来说，当时还没有“隐私计算”这个领域，充其量是“混沌初开”。

那时王爽也没意识到，若干年后，隐私将成为各行各业的难题，对整个世界产生深远影响，电表引发的矛盾，只是科技发展与隐私保护之间矛盾的一个小小缩影。

要科技发展，还是要保护隐私？这个矛盾是深刻而本质的，它深埋在各个领域，就像一颗定时炸弹，即将被“云计算、大数据、人工智能”等新兴技术引爆。

在一次学术活动上，王爽遇到一位师哥，师哥来自加州大学圣地亚哥分校（美国全国性一级大学）医学院，听说王爽在研究隐私保护技术，又临近博士毕业，正在找实习，便盛情邀约。

师哥告诉他，医疗行业的隐私问题由来已久，当年，就连麻萨诸塞州（就是大名鼎鼎的麻省理工学院所在的“麻省”）的州长都是医疗隐私问题的受害者。

2.连州长都遭殃的医疗数据之困

1997年，美国麻省政府的一个部门为了帮助医疗科研人员，公布了一份政府雇员的医疗记录。

为了防止暴露个体隐私，他们专门给数据“打了个码”——删掉了姓名、地址和社会安全号码（相当于身份证号码），但保留了出生日期、性别和邮政编码这些看似无关痛痒的信息。

麻省理工学院当时有一位学者叫拉坦娅·斯维妮（ Latanya Sweeney），她拿到医疗记录一看，眉头一皱：这马赛克简直是打了个寂寞啊！

她打听到麻省州长住在剑桥市，就花20美元从剑桥市政府买了一份选民名册，从里头找到州长的资料，有姓名、地址、邮编、生日、性别等等（美国很多州选民的这些基础信息都是公开的），再跟那份“打了码”的医疗记录进行对比，发现跟州长同一天生日的人有6个，性别是男的有3个，最终，她又用“邮编”把目标锁定到其中一个人。

她把“这个人”的医疗记录摘出来，一封邮件发到州长办公室，也不知道州长看到自己得过什么病，吃过什么药，被人扒得一清二楚，该作何感想。

之后，拉坦娅又公布出一个惊人结论：只需要三个信息（邮政编码、出生日期和性别）就有63%~87%的可能性唯一确定某个州中的一个美国人。

这件事直接让麻省政府部门“炸开了锅”，没过多久，麻省乃至整个美国的医疗信息隐私政策都发生重大调整，开始“严打”，所有医疗记录披露都需要严格遵守《健康保险隐私及责任法案》（简称“HIPAA法案”）所规定的相关隐私保护条例。

人们从此意识到，隐私数据处理并不是随便删一删数据，打一打码就行，它是一门技术活，搞不好的话，分分钟就会被人破译出来。

这也是为什么师哥会邀请王爽这样的计算机专家来医学院实习——名曰“实习”，实则“救火”和“把关”。

它山之石，可以攻玉。在加州大学圣地亚哥分校（以下简称UCSD）医学院实习的三个月，王爽处理起数据是得心应手，一边工作还一边顺手发了几篇硬核学术论文，这一顿猛如虎的操作，把一帮学医的教授都看懵了，实习期刚结束，就让王爽留下来继续工作。

虽然成绩还不错，但王爽发现一个问题：有一些“特殊的数据”很难用“老方法”来处理。

所谓“老方法”概括起来就两点：匿名和泛化。

匿名，就是把敏感的信息（比如名字）用***替代，原来是张三，改成张*或**。

泛化，就是把一个确定的内容变成一个范围，原来是28岁，现在是20~30岁，这样别人就很难通过数据比对来定位到某个人。

对于“结构化”数据（简单理解就是平时能用表格来表示的数据），这两种方法比较奏效，但是对“非结构化”数据就不太好办，比如医生在病历里写了一段口语化的备注：“这个病人从15岁到50岁期间抽烟，平时睡觉不太好，得过阿尔兹海默症……”

像这种数据，每个病人的格式都不一样，这时，你就不知道应该给什么地方打码，什么地方不打码。

而且匿名和泛化，肯定造成信息量丢失（严谨一点叫“增加信息熵”）。正如一部电影，马赛克打得越多越厚，观赏性就越低（你懂的）。一份数据，从头到尾全部码上，就彻底失去了数据的使用价值。

但这还不是最难的。

如果说处理非结构化数据是棘手，那处理人类基因序列数据，简直就是“无从下手”！

3.美好而脆弱的基因密码

基因序列是个神奇的东西。

正如一个计算机程序可以用无数个1和0构成的代码序列来表示，一个人的基因也可以用无数个ATCG（四种碱基）构成的代码序列来表示。换言之，你的基因序列就是你的“底层代码”。

一个程序出了问题，程序员会在代码里定位到具体原因，基因也是一样，你也许听过，一些基因检测技术只需要取一些唾液、血液或毛发，就能诊断出你是否患某种病，或是提示风险，给出建议。

之所以这么神奇，背后是无数科研人员做了大量数据统计和分析的结果。

一个人大约共有30亿个基因位点，我们身体的性状：单双眼皮、直卷发、皮肤颜色以及身体疾病，大多都能找到对应的基因位点。

科研人员通过大量的数据统计分析，才把各种疾病、身体性状和特定的基因位点一一对应上。

分析过程中会大量用到机器学习之类的AI（人工智能）技术，把大量基因位点和疾病、症状的对应数据“喂给AI模型吃”，AI模型就会自动学会判断疾病和基因位点之间的联系，就像要教会AI识别狗，得用很多张狗的照片去训练它一样，喂的数据越多，效果就越好。

如果样本数据的量不够，训练出的AI模型就像一个学艺不精的医生，经常出错。

2011年底，王爽所在的项目要研究如何用基因数据来诊断心脏病，遇到一个难题：

加州大学体系下有5家医院，每一家都有一些心脏病人，单独做分析，样本数量都不够，可医院之间又不敢贸然交换数据，因为基因序列数据太特殊了。

常规的医疗数据，可以用匿名和泛化来处理，基因序列数据不行。

“一个人有30亿多个基因位点，只要挑出具有代表性的十几个位点，就能唯一确定一个人，准确率比指纹高得多。”王爽说。

这就好比，你全身每一寸肌肤都写着你的名字，要怎么打码？不可能给30亿个基因位点全部打上码吧？而且万一码掉的基因位点恰好跟这种病有关怎么办？

可是如果保护做不到位，导致基因序列医疗数据泄露，后果更严重。

王爽团队的一位同事做过一项试验，一个人喝完一杯水，杯子留在桌上，他只需要提取杯子上残留的唾液，做个基因检测，就能有一定概率知道这个人姓什么。

方法说起来特简单，美国是一个移民国家，人们喜欢溯源自己的家族，市面上有很多公开的基因族谱数据，像什么“史密斯家族”、“唐纳德家族”，只要拿着你的基因和族谱数据一比对，就能知道你在不在这个数据库里。

如果只是知道姓什么，并不可怕，可怕的还在后头。

王爽当时手头有许多大型的医疗科研项目，见到过各种各样的数据，其中一个项目包含4万多志愿者的全基因组序列，以及他们的录音、360度的全息拍照。

假如这批数据被泄露，只需要被泄露者的一滴唾液，就能精准恢复出他的各项身体信息：肤色、眼睛颜色、体重、身高、声音等等。

这意味着，我拿到你的一滴唾液，只要放到各种数据库里比对，就能知道你的各种信息，比如放到一个艾滋病或自闭症的研究数据库里比对，就能知道你是不是参与过这个项目。

最最极端的情况是：某一家特别有钱和权势的组织，从各个渠道收集到所有流落在市面上的基因数据库，聚合到一起，它就能分析出所有人的基因信息：你的（以及你父母、孩子的）相貌，你的病，你家族的遗传病，你的先天特征……一切和你的基因有关的一切，都可以被掌握。

届时，很可能会出现比“大数据杀熟”更可怕的情况：“基因杀熟”。

保险公司可以根据你的基因来评估你的投保风险，甚至拒保，诈骗团伙根据你的基因来设计精巧的骗局。

……

更可怕的就不说了，反正挺赛博朋克的。

总之，医院每交换一次数据，风险就多一分，因为数据可以无限复制，对方会怎么处理你的数据，能不能保护好，这些都不可控。

隐私问题一度让项目进展非常缓慢，项目组左右为难。

但是基因医疗肯定不能放弃，因为它确实有很多传统医疗不可比拟的优势。

比如做羊水检查，需要用一根针管从孕妇肚皮上扎到子宫抽出羊水，对胎儿有一定危险，而基因检测就不需要。

还有一些疾病，传统方法束手无策，基因医疗却能另辟蹊径。

王爽开始琢磨：有没有办法在不给出原始数据的情况下，又让对方利用到数据的价值？

他想起自己写过的电表隐私论文，在那个方案里，电厂在不需要直接碰触居民电表里的原始数据，却能得到中间计算结果……

有了！一道灵光闪过，王爽欣喜若狂，“真相只有一个！”他冲进实验室和同事们分享自己的思路。

王爽教授（和柯南）

很快，一套名叫“隐私保护下的分布式机器学习”的方案摆在众人面前，在这套方案里，医院不需要把数据拿出来，喂给模型吃，而是反过来，把模型放到医院的服务器，训练出一个小的AI模型。

再把几家医院分别训练出的“小模型”放到一起，训练出一个更厉害更准确的大AI模型，整个过程中谁也不会暴露自己的原始数据，却又用到所有数据，做到数据的“可用而不可见”。

打个不严谨的比方，每一个爷爷都有一本“葫芦娃”训练秘籍，都只能训练出单色葫芦娃，但是爷爷们又都需要一个全能的葫芦小金刚来保护自己。

所以爷爷们先各自训练出一批单色葫芦娃，再让七个葫芦娃合体成七彩葫芦小金刚，每个爷爷都可以领走一个，至于葫芦娃秘籍，依然保留在各自手中，不需要告诉任何人。

至此，每一家医院既能得到一个优质的AI模型，又保住了患者的隐私。应了那句：小孩子才做选择，成年人当然是隐私和便利……

尽管说起来很简单，实际做起来还是会碰到各种无法预料的情况。

“比如，其中一个计算中心网络不稳定，或是中途想退出这个项目，掉线了怎么办？”

还记的文章开头那个“计算三个葫芦娃的总工资”吗？这就相当于第三个人加完自己的工资，交给第一个人，准备让他减去最初那个随机数，结果第一个人忽然说：“我溜了，你们自己算吧。”于是其他人又得从头来一遍。

为了避免类似情况，王爽不断改进了方案，做到让每一个中心都可以动态地加入或离开，整个研究不会受影响。

原本非要7个葫芦娃才能合体，现在随便来几个都能合体。

安全领域有一个说法：未知攻，焉知防。

为了保护好数据，王爽还要带着团队自己扮演攻击者的角色，想尽各种办法来破解自己的方案，“黑”掉自己的数据，提出各种安全假设，左右手互博。

至此，基因序列研究的隐私困境终于被解开，一个包含加州大学5所附属医院的多中心联合分析网络建立起来。

之后，越来越多的医院闻讯加入，到2013年，一个横跨美国西海岸将近20个医共体（全称“医疗服务共同体”，是一种医疗合作组织形式）的网络建成，串联起上百家医院，超过3000万个病患数据像孤星汇成银河。

这“银河”对一些病人来说，也许是活着的希望。

之后，王爽又参与了其他研究项目，把这套思路延伸在其他罕见病的基因研究，以及医疗影像和其他非结构化数据上。

然而这个世界上不可能有一劳永逸的解决方案，故事到这里，隐私计算的大厦还远远没有建成。

4.隐私计算界的奥林匹克

“隐私计算光靠一两个团队的话，进展肯定太慢。”2013年底，王爽意识到这个问题。

次年，他开始频繁接触各路密码学和安全专家，却发现整个密码学界、安全界跟医学界完全处于“脱钩”状态。

“懂医学的人不懂安全，懂安全的不懂医学。”

王爽举了个例子，一位密码学专家设计了一套非常精巧的方案，在密码学上是完全正确的，可是他假设的场景在实际当中根本不存在，医院根本就没有这个需求。

比如：医院接到一个病人，想在数据库里寻找是否有相似的病人，以前用过什么诊疗方法，效果如何。此时，如果技术方案的设计者不理解“什么是相似的病人”，就很可能出错。

什么是相似的病人？是病人的身份证编号相似？哈希值相同？年龄、性别相同？还是生理指标？多大程度上的相同才能叫“相似”？

隔行如隔山，但王爽知道，这座山必须打通，工业界和学术界要充分交流，隐私计算才能长足发展。

2014年，他主持创办了一个讨论社区“iDASH 隐私安全研习大会（iDASH Privacy & Security Workshop）”，每年把大家拉到一块交流学习。

之所以叫iDASH，是因为王爽当时作为核心人员参与了总额超过四千万美元的美国国家生命医疗计算中心（iDASH）项目，这个社区的建设经费是项出的，所以就冠名了。

王爽一边攒局，一边带着团队十几个做数据隐私安全的博士、研究生们，当起了“翻译”，把医学领域实际碰到的各种问题，抽象成一个个的“信息学应用题”，摆到密码学和安全研究者们面前。

“你直接跟他说两个相似的病人，他不知道怎么做，但是当我们把相似性严格定义成一个可以度量的概念，比如求一个特定的“最短路径”，公式规则我都全都给定义好，他们就秒懂，直接解题就行，慢慢地，他们也会理解这个可以临床上能解决哪些问题。

他们从同事、朋友、合作伙伴那里四处收集到各种临床上的难题，后来一琢磨：不如把这些难题变成考题，搞一场隐私计算的“华山论剑”，让各路高手来切磋切磋如何？

iDASH隐私保护竞赛就这么办了起来。

2014年，第一届iDASH比赛还没有任何名气，王爽只能“刷脸”，靠着自己的学术魅力，发邮件、朋友圈“人传人”，拽着身边的朋友跟合作伙伴来参加，有的朋友一开始只是卖个面子来参加，结果发现：诶？这比赛可真有意思！反响很好。

等到2015年第二届，美国基因研究领域的权威媒体GenomeWeb和自然（《Nature》）杂志也跑来报道。很快，整个学术圈子里研究隐私计算或基因的人基本都知道这个比赛。

2016年第三届，微软、英特尔、IBM等商业公司也开始派队伍参赛，原因说来也巧，王爽有一个经常一起约饭吃烧烤的邻居，正好在微软负责系统安全，一听他搞了个比赛，也帮忙吆喝，所以iDASH比赛很快在互联网科技圈传开。

又过了一年，iDASH比赛出现中国公司的身影。最早是百度，2017年，百度美国研究中心出资赞助iDASH竞赛。那一届还发生过一个有趣的事：当时有个赛题是在可信计算环境下完成人类基因组分析，百度安全实验室当时研发了一个工具包叫Rust SGX，结果法国队基于这个工具包做的方案夺了冠，也不知道百度团队当时被自己研究的武功招式击败，是该开心还是忧伤……

那一年，和百度一起赞助iDASH的另一家公司叫人类长寿公司（Human longevity），创始人叫Craig Venter，是人类基因组研究计划的先驱和代表人物之一，曾被时代杂志评为世界最有影响力的人之一，2010年他和同事一起创造出历史上第一个人造细胞。

前文提到的王爽参与的那个包含4万个志愿者的基因和全息影像数据的项目，就是跟这家公司合作的。

现年75岁的Craig Venter

王爽并没有料到，这场切磋交流将一年比一年声势壮大，队伍一年比一年多，几年下来，俨然成了隐私计算领域的奥林匹克。

也正是那几年，隐私计算领域的各个技术流派逐渐清晰。

同态加密、可信计算、差分隐私、多方安全计算、联邦学习等等……就像是一场武林大会，吸引来少林、武当、峨眉、昆仑，各路门派豪杰齐聚。尽管大家都是要保护隐私，但具体的场景和方法区别非常大，很多时候要结合多种技术。

王爽记得，第一届的iDASH有一条赛道是基于“差分隐私”的隐私保护——看看谁能在数据里加最少的噪音，又能尽可能保持数据在分析中的可用性，还能充分保证第三方不能从结果里窃取到相关信息。

而说到隐私计算的技术流派，还有一个跟王爽有关的小插曲。

2016年，谷歌在官方博客发了一篇文章，讲他们如何在不碰触用户手机数据的情况下，依然能利用这些数据做机器学习。

大致原理是，不把用户手机里的数据拿出来，而是把一个小的AI模型放到用户手机里，训练完之后，只上传中间计算结果，不上传原始数据，成千上万个用户的模型再聚到一起，训练出一个大的模型。

谷歌当时为这种思路造了一个新词：Federated Learning（联邦学习）

截取自谷歌博客

王爽在网上刷新闻，看到许多媒体都在报道说：谷歌开创了一种新的机器学习范式叫“联邦学习”，他捏着下巴微微点头：“嗯……Federated ，联邦，这个词用的真巧妙，就用了一个单词，我以前咋就妹想到捏~？（注：王教授是东北银）”

以前，王爽在论文里用的是Privacy preserving distributed learning（隐私保护下的分布式学习），那之后也改用Federated learning（联邦学习）以便于交流。

他当时还不知道，两年后，自己就从学术界踏入工业界，开始由一个纯粹的科学家变成一个创业者，跟一些客户提起联邦学习时，人们都以为是谷歌在2016年开创的，却不知道有一位华人科学家早谷歌五年就在实践同样的思路，而这位科学家正站在自己面前。

后来我有一次问王教授：“你当时看到谷歌那篇博客文章，有觉得谷歌抢走了本该属于你的荣誉吗？”他说没有。

“当时我还在学术界，对这些词汇上的东西不是很在意，而且解决的问题也不一样，谷歌解决的问题其中在2C（面向消费者）领域，我解决的问题主要在2B（面向商业）领域，虽然理念上确实差不多。”

5.回中国，还是在美国？

iDASH隐私竞赛之所以很快“出圈”，一个重要的原因是2015年底，号称史上最严的隐私数据保护法案GDPR（《通用数据保护条例》）的最终稿公布，并计划2018年开始正式实施。

法案规定，企业如果没做好隐私保护，导致用户隐私泄露，最高可以罚年营收的4%，科技巨头们掐指一算，当场吓尿：我们一年营收几百甚至上千亿美元，4%得是多少啊？！

他们开始四处寻找技术方案。

也因为人们隐私保护意识的觉醒，王爽参与的隐私保护项目越来越多，几年时间，他掌握的技术方案不论是在安全性，还是计算效率和复杂度上都在飞速提升，能应对的问题范围也越来越广。

2018年，他萌生了创业的念头。

他回顾自己在学术圈的日子：想得到的荣誉都已经得到，已经打了通关。一边带学生做项目，一边发论文，三年时间就“不小心”解锁了“教授”成就，几年时间下来，发了上百篇学术论文，各种奖项拿到手软。

主持和参与的科研项目也都是大型项目，比如总额超过四千万美元的美国国家生命医疗计算中心项目（iDASH）、美国卫生保健研究与质量局（AHRQ）项目，以及多项美国国立卫生研究院（NIH）项目，还有NIH联合英伟达(NVIDIA)、亚马逊(Amazon)的云计算项目等等。

他想起自己刚来美国读博士时，2007年，英伟达公司推出GPU计算平台CUDA，他是第一批研究这个框架的人，当时他想到可以基于CUDA做一套商业化方案，用GPU去加速高性能计算应用，但当时为了优先完成学业就放弃了创业计划，直到后来有一家公司做了这件事，并大获成功，他才意识到自己错过了几个亿。

如今，又一个机会摆在他面前。

2018年，王爽三十多岁，这位外表看着沉稳，不善言谈的教授，心中依然有一团小火苗。

这团火苗很快就被几位朋友彻底点燃。

2018年3月，王爽受邀到麻省理工学院做学术报告，台下可谓是高朋满座，包括多位图灵奖得主、院士、密码学专家。当时，著名物理学家张首晟教授也坐在台下，这是王爽第二次见张教授，两年前，张教授曾经邀请王爽到斯坦福大学做过一次关于数据隐私的报告，当时张教授就认定，隐私计算是未来解决数据流通的一项核心技术，但当时相关法律法规还不完善，所以那次他们主要在学术层面做交流。

报告结束后，张首晟又邀请王爽到斯坦福做一次报告，张教授在斯坦福大学组织了一个论坛，用于交流最前沿的技术，参加者不光有教授，还有一些投资人。

那次论坛上，张教授向王爽引荐了启明创投的创始人邝子平，以及在生物医药行业做了十多年硅谷资深科学家的郑灏博士，几人一拍即合，相谈甚欢，一致认定隐私计算的风口即将到来。邝子平当场表示，只要他们愿意出来创业，启明创投一定投资。

没犹豫太久，王爽向学校递了辞职信，郑灏也从硅谷的公司辞职出来，一起创办公司。

王爽是董事长兼CTO，郑灏既有世界500强公司的工作经历，又经历过一家公司从几个人一路做到上市的过程，担任CEO，两人性格互补。

此时摆在他们面前最大的抉择是：留在美国创业，还是回中国？

隐私保护风口在欧美国家出现得更早，隐私保护法律法规方面，国外的进度明显比国内更快，这意味着创业成功率更高。

而且他们在美国工作生活多年，熟识的朋友、团队（比如王爽的学生们）、人脉圈子也是美国这边更多。

国内的学术环境、氛围和一些流程也跟国外也不太一样。

工资待遇、房价什么的就更不消说。

没等他们犹豫，美国宣布对进口太阳能电池板和洗衣机征收全球保障关税——“中美对抗”自此开始。

王爽和郑灏深知数据是一件非常敏感的事，也察觉到问题的严重性，他们必须立刻做决定：要么回祖国工作，要么服务于美国公司。

在国内上大学期间，王爽曾获得首届“中国青少年科技创新奖”，这是在邓小平诞辰100周年之际，按照邓小平的遗愿，用他生前的全部稿费140多万元捐赠设立的奖项，鼓励中国青少年的科技创新。

在人民大会堂，王爽见到国家领导人、中科院院士和许多科技界前辈，与邓小平的子女面对面，接受颁奖并合影留念，和其他来自全国各地的54名获奖学生一同念颂誓词《青春的心声》，整个活动隆重，庄严，在王爽心里留下难以磨灭的记忆。

第一次踏上飞往美国的飞机时，他就知道自己有一天会回来。

2018年，恰逢“海外青年高层次人才引进计划”开始，王爽在递交了申请，很快通过选拔，成为当年医疗隐私计算领域唯一的上榜者，国家对于王爽过去学术成就的认可，更加坚定了王爽回国发展的决心。

“中国人的隐私，会被重视起来吗？”

这个问题的答案将决定他的隐私计算技术能否在中国的商业土地上生根发芽，枝繁叶茂。

“我相信，一定会的。”

6.隐私计算的东风

“我们是2019年回来的，到2020年，隐私计算忽然之间就变成一个风口了。”王爽说。

每一个“忽然之间”，放大之后都是一系列惊天动地的大动作。我简单整理了一个2019~2020年期间相关法律法规的时间轴，你可以从这个时间密度上感受一下国家这块的重视程度。

更不用提2021年9月1日生效的《数据安全法》和11月1日生效的《个人信息保护法》了……

隐私保护和网络安全类似，是一个“合规”驱动力很强的市场，法律不禁止，大家就疯狂试探。

如今，中国终于迎来一个隐私数据的强监管时代。

王爽是幸运的，但这份幸运源于坚信和坚持，很多年前，人们还不把隐私当回事的时候，他就在埋头研究。

“我2011年开始做隐私计算，一直到2017年，期间每次回国交流，都感觉大家对隐私保护还没形成一个刚需。”王爽回忆，那时回国作报告，表示感兴趣、想合作的大多是科研层面的，大家想发高分论文，管理层基本没有合作动力，大家只是嘴上说隐私很重要，身体很诚实。

“2018年，国内某大型酒店集团泄露了1亿多人的数据，结果只是治安处罚50万元，那可是1亿人的数据啊，放在欧盟可能要罚几个亿美金，犯错的成本太低了，以至于大家都没有意识去做好数据的保护。”

与其说是赶上，不如说是等来了东风。

中国的个人信息保护法比欧盟的GDPR和美国的CCPA（美国加州的消费者隐私保护法）的惩罚力度更“狠”，GDPR只罚营收的4%，中国最高罚5%，而且除了罚钱，还要承担刑事责任，直接抓去坐牢。

“2020年4月，中央出台了一个文件，把数据纳入生产要素，跟人一样的生产要素，和劳动力、土地一样重要，但是数据这个生产要素很奇特，它的好处是只要有人用就可以创造价值，坏处是一旦给出去以后，生产要素就不是你的了，就变成了别人的生产要素，它的复制成本很低，可以被转卖。”

王爽说，他相信隐私计算会成为这个时代数据价值的底座，帮助解决“一个数据反复创造价值”的问题，“我给出去的是数据的价值，而不是数据本身，这就是数据可用不可见。”

“2019年跟运营商讲隐私计算，大家还不知道隐私计算是什么，联邦学习是什么，我需要从头给他讲一遍这个东西的原理，能解决什么问题。到2020年下半年，我再跟需求方一说隐私计算，大家都已经知道个大概。”王爽说。

医学领域的，金融领域的，安防领域的，云计算领域……越来越多行业主动提出对数据隐私保护的需求。

为了解决这些需求，锘崴科技梳理出三条产品线：隐私查询、隐私建模和隐私推理。

正在读这篇文章的你，很有可能不经意之间已经用到过这三类产品，只是你并不知道。

隐私查询，就是可以做到我去一个数据库里查了一个数据（比如一种病的资料），但是我又不想让别人知道我查了这个数据。

税务部门要限制高消费，让机场要判断每一个乘客能不能上飞机，但是又不能直接把黑名单给每个机场，机场也不能把所有乘客名单给税务部门，这时就可以用“隐私查询”来完成数据的比对，不会泄露额外数据。

隐私建模，就是前文提到的“葫芦娃合体”的例子，多中心联合训练一个算法模型，但是谁也不暴露自己的数据。

很多医院做联合分析研究，金融机构做大数据风控都可以用到。

2020年海军军医大学第二附属医院拿下两个上海市科技进步一等奖，其中一是关于强直性脊柱炎和类风湿关节炎的研究，成果的背后是研究团队联合全国多个中心的数据一起分析，才筛选出24个易感基因，让这种疾病取得突破性进展，而联合研究用到的隐私计算方案，就是锘崴科技提供的。

隐私推理，就是在使用别人已经训练好的模型时，需要向模型输入一些信息源，但是你又不想把数据给对方，这时，隐私推理就能在不给对方数据的情况下，又能用对方的模型来处理数据。

银行可以用“隐私推理”实现各方不通信的情况下完成征信操作。

王爽告诉我，这三个应用基本可以覆盖目前隐私计算在数据领域的绝大多数需求。

只是在实践过程中，依然有许多细节调整工作，因为每个领域都有一些特殊的要求，需要去适配不同的解决方案，不同场景对数据处理的精度、执行的效率、保护安全性都不一样，所以需要用不同算法方案去灵活组合，才能更好地解决用户的痛点。

“隐私保护永远都是在安全性、可用性、性能构成的三角形里找到一个平衡点，最安全的就是不用这个数据，只要使用，就有隐私泄露的风险。”王爽说，“隐私计算就是为大家在可控的风险下，合规地使用数据提供了一个工具。”

7.结语：一个补丁

为了解决贫穷、落后、困窘，人类创造出“科技”这把武器，以更好的适应环境乃至改造环境。

但人性之恶，让一些人把科技的枪口瞄向自己人，攫取他人创造的价值，牟取不义之财。

隐私问题，是科技发展到一定阶段的产物。

人们对隐私泄露的恐惧，本质上是恐惧科技，人们害怕隐私落入坏人之手，成为对付自己的武器。

“只有魔法才能打败魔法”，发展的问题，永远只能靠发展来解决。人类的科技车轮一旦开始，便碾过一切无法停止，所以我们只能用“隐私计算”这个新技术来解决旧技术带来的问题。

从这个角度来看，“隐私计算”是科技世界的一个“补丁”，锘崴科技以及它的同行们正在“Debug the world”。

这件事和我们每个人息息相关，他们能不能成功，能做到何种程度，也取决于我们每个人对这件事的态度。

你可能想看：

修好手机之后，她收到自己的裸照：你的隐私安全，究竟谁来管？

尤其是手机信息的隐私安全。但不一定愿意把手机密码交给对方。手机信息泄露造成的打击，有心人如果想盗取信息，然后隐私就莫名其妙地泄露出去了。没想到此时却成了陌生人视奸和威胁自己的把柄，警方很快就将发邮件的...

微信这5个功能千万不要长期开着！不然你的隐私全泄露了，赶紧关闭！

下面这5个功能最好关闭！只要我们在微信端点赞过自己看过的文章？那么我们的微信好友就能看到自己点赞了什么文章，为什么说会造成隐私泄露吗，如果你点赞了一篇比较私密的文章，关闭方法如下，点击底部导航的【发现...

微信这5个功能建议关闭，它在一直泄露你的隐私，最后一个很关键

微信这5个功能建议关闭，依次点击【我—设置—隐私—朋友圈】进入朋友圈权限设置页面。允许陌生人查看十条朋友圈”不是微信好友的陌生人就无法查看到自己最近发布的朋友圈动态了。有人觉得这个开关打开与否并不重要...

你的电脑可能在偷窥你的隐私，赶快关闭这5个设置！

微软会在后台发送和备份大量数据，②在Windows权限中打开【活动历史记录】管理，取消两个储存历史记录的选项勾选。就能清除在电脑上使用的操作历史记录，电脑的其它应用程序通常也会临时保存你的工作结果，许...

德国为什么能出那么多哲学家和科学家？

在面积只不过35万多平方千米的土地（比我国云南省稍小）上涌现出大批世界最顶尖级科学家如爱因斯坦、普朗克、海森伯、高斯、莱布尼茨、希尔伯特等等，却是伟大的数学家和哲学家）、黑格尔、海德格尔、谢林、阿多尔...

我国科学家发现人体“人体组织液循环网络”，可证中医，武术，气功，经络存在的科学性

人体组织液循环网络，开拓了从组织液循环网络的角度研究经络穴位的新领域，国内外研究对组织液是否全身循环尚不明确，这种组织液流动网络广泛分布在静脉和动脉外膜、神经和皮肤等部位的纤维结缔组织中。在血管外膜、...

脑科学日报：科学家发现诱发阿尔兹海默病的潜在原因

JACS | 董甦伟/刘聪合作揭示糖基化修饰调控阿尔兹海默病Aβ病理性聚集的新机制。β淀粉样多肽（Aβ）的错误折叠及在大脑中的聚集被认为与阿尔兹海默症（AD）的发生发展密切相关。过往研究在AD病人脑脊...

「穴位科普」101个“穴位功效大全”

1、发热穴----膻中(大椎、肺俞)9、补肾穴——太溪12、止咳穴——极泉、尺泽15、耳鸣穴——少海20、鼻炎穴——丰隆、手三里24、牙痛穴——合谷、肩井54、慢性咽炎、咳嗽穴——天突、尺泽58、补气...

摄影家的天堂画家的地狱---张掖七彩丹霞

张掖丹霞地貌在方圆一百平方山地丘陵地带，气势磅礴的丹霞地貌。张掖丹霞地貌分布广阔，是我国干旱地区最典型和面积最大的丹霞地貌景观，张掖的丹霞地貌集中分布在临泽、肃南两县境内，是中国丹霞地貌发育最大最好、...

在男人心中，为什么别人家的妻子更有吸引力？心理学家告诉你真相

这个问题其实特别现实，而男人心中也有自己的答案。男人会觉得，男人自然就会改变以往的观点，觉得自己的妻子不好。女人不再奢求什么，男人也不对妻子有太多的兴趣，为什么会觉得自己的妻子不好，而认为别人的妻子比...

文档实行文件夹管理简洁便利

文件夹，它是电脑中存贮文件的工具，在电脑中创建文件夹，自已的文件均可分类存放里面，夲文介绍创建文件夹和向文件夹装入文件的简明实用操作法。创建文件夹的操作步骤，我的文档，图标。我的文档即被打开，单击我的...

小型便利店的基本经营推进逻辑

从新店开张到生意正常。小型便利店的经营推进可参照如下这个次序，店内光线足够，3. 确保店内光线强度超过街面的自然光亮度，4. 店内交叠布置主灯、辅助灯、射灯、货架光带等多种光源，加强灯光的漫射效果。是...

通俗讲解计算机总线，计算机的脊髓神经？

总线是计算机各种功能部件之间传送信息的公共通信干线。它是CPU、内存、输入、输出设备传递信息的公用通道，主机的各个部件通过总线相连接，CPU通过总线与计算机各部件连接：FSB总线逐渐因为数据传输效率跟...

数学老师：掌握这14个计算技巧，孩子计算...

掌握这14个计算技巧，孩子计算能力超强，经常和一些家长讨论孩子的学习问题，我相信很多的家长都已经给孩子找好了很多的数学的培训班，如果孩子没有理解为什么这样做。这里我给大家总结了小学数学14个计算技巧。...

孩子越黏妈妈就越亲？心理学家：别高兴太早，这些原因影响大|孩子|心理学家|宝宝|宝妈

果然母亲和孩子之间的关系是世上最亲密的，老一辈的人都说孩子粘妈妈是有孝心的表现;宝宝爱粘妈妈是天性。出生后医生会将宝宝放在妈妈胸口以获得安全感。普遍的母亲和孩子的关系应该是亲密的。孩子逐渐成长的过程中...

震惊！非洲出现神秘巨大的裂缝，科学家：非洲大陆可能会裂成两半

板块之间发生的缓慢移动在平常人类是感受不到的，它们的出现好像是地球对人们滥用资源。感觉下一秒就有可能被吸入到这裂缝当中。神秘裂缝的出现还伴随着火山、地震的骚扰。地质学家认为这是地球板块之间的强烈运动造...

别啥都往DNA里写？晚了，科学家研发出可直接向DNA快速录入信息的技术

我们的DNA存储数据的效率比人造设备高几百万倍，有可能在生物传感和生物记录技术以及下一代数字存储方面取得突破。西北大学的研究人员提出了一种将信息记录到DNA的新方法，将快速变化的环境信号直接记录到DN...

“宇宙大爆炸”之前有什么？英国科学家有了一个答案

宇宙大爆炸理论认为”意味着相对论在这种情况下是失效的。量子力学在描述微观世界方面取得了很大成就，于是很多科学家想要把相对论和量子力学结合起来，发明一种所谓的量子引力论：用来解释这个宇宙中用相对论无法解...

全球哪里最惨？科学家模拟气温升高3℃：50城遭遇重大损失

CNN发表了普林斯顿大学和德国波茨坦气候影响研究所的研究人员模拟了地球温升达到3℃后海平面上升后各大城市的模样，气温上升3℃后的世界会怎样？全球气温将可能上升3℃，各位很难想象这上海会在海平面上升后会...

中国祝融号在火星上失联了！科学家：遭到强烈辐射干扰

我国的祝融号火星车、天问一号轨道器与地球的通信开始变得断断续续，我国发射的天问一号火星探测器到达火星轨道。着陆器携带祝融号火星车成功登陆火星。并传回了大量的火星地表探测数据。火星与地球有时会靠近，火星...

颠覆认知！关于肥胖，科学家有了新发现

当前肥胖症流行的主要原因归咎于现代饮食模式。导致脂肪储存、体重增加和肥胖，减少食物供应中大量存在的可快速消化碳水化合物的消耗，会降低人体储存脂肪的潜在动力“即体重增加是由于机体摄入的能量超过消耗的能量...

地球发生巨大改变？最近3年急剧变暗，科学家第一反应数据搞错了

对于地球会如何处理这多出来的0.5瓦热量，过去20年来研究人员一直在借助一台望远镜——大熊湖太阳天文台，以研究太阳周期和地球云量。就是月球阴暗面反射地球光芒而发出的辉光。这是因为太阳照射地球时，地球表...

科学家发现来自洋葱的天然抗癌化合物

据物理学家组织网2016年10月21日报道，从洋葱中发现了一种天然化合物，取名为洋葱素A(Onionin A简称ONA),此物质对于卵巢癌具有抗癌特性。其研究结果于2016年7月12日已经在《科学报告...

科学家造出比钢刀还锋利3倍的木刀，网友：这不是在给安检出难题吗？

比不锈钢的餐刀强度还要高3倍；而用这种木材制成的木钉，且极为环保的高强度材料，纤维素的强度密度比超过了陶瓷、金属和合金等大多数工程材料。木材中纤维素的含量在40%到50%之间，之后科学家们用热压机在室...

33岁女科学家研究锂电池获100万大奖，想去火星

今天咱们说一说浙江大学的青年女研究员陆盈盈，博士毕业后在康奈尔大学和斯坦福大学从事能源材料领域博士后研究工作，工作研究领域为电解质材料产品工程、多功能离子液体、无机有机纳米结构杂化物、锂电池等能源化工...

地球被困在一条巨大的隧道里了！长达1000光年，科学家还不知道是什么

就困在这条巨大的磁隧道里，就发现了这两个明亮的发射无线电的气体结构——北银极支（North Polar Spur）和扇区（Fan Region），这是银河系里最亮的两个无线电发射，显示从地球看这片无线...

科技医疗

上一篇
实践与成功

下一篇
默纳克NICE3000+主板与轿顶板端子说明

隐私和便利我全都要：一位科学家的隐私计算史

最新文章

626969cm精准资料手机版

626969cm资料查询工具

626969手机资料网

最准626969资料查询

研读一本好书丨读《习近平讲党史故事》之“沂蒙六姐妹”故事有感

626969实时资料网

爱你，看不到你时胡思乱想；想你，想你时眼在流泪，心也跟着碎

626969cm精准资料网站

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

荨麻疹图片和症状：手脸脖子荨麻疹初期症状图片大全

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子