灰色地带中的隐私之墙,怎么攻?怎么守?
一场围绕数据隐私的攻坚战。
去年年初,网上流传这样一个段子,一位已婚男性用户向支付宝发出“抱怨”,称后者发布的2017账单暴露了他过去一年的开房记录,以致于家庭被迫走在毁灭的边缘(图片如下):
一时间,支付宝账单被顶上了舆论的风口浪尖,这一切的背后是用户数据隐私的被采集和利用。
而一波未平一波又起,时隔不到两个月,Facebook也因为同样的理由遭遇了比支付宝更严重的考验,即臭名昭著的“剑桥分析”事件,数据泄露范围高达8700万用户。因为这一事件,小扎经历了长达5个小时的国会听证,并针对用户隐私政策和数据泄露事件接受了44位议员的质询。
在这之后,华住集团5亿条数据遭泄露、平台频现“大数据杀熟”、骚扰电话接连不断……可以说,自去年年初开始,关于“数据隐私”的讨论就一直很激烈。
技术面前,隐私不再“隐私”
“隐私”一词第一次出现是在周朝初年,指代“衣服”,即把私处藏起来的东西。按照现在的说法,所谓的“隐私”,即一种与公共利益、群体利益无关,当事人不愿他人知道或他人不便知道的个人信息,当事人不愿他人干涉或他人不便干涉的个人私事,以及当事人不愿他人侵入或他人不便侵入的个人领域。
隐私的周围或多或少都会存在窥探者,出于不同的目的,他们往往能够把隐私玩出许多花样,并由此诞生了许多不同的职业和市场,比如致力于围绕个人或群体调查信息的私家侦探,又比如满足人们对明星生活好奇心的娱乐记者……而随着互联网时代,人们窥探隐私的手段也以可见的速度进行升级换代,尤其是在用户服务、市场营销等领域。
以市场营销为例,今年315晚会现场所揭露的数据灰色产业至今令人记忆犹新。通过一种“探针盒子”设备,设备持有人便能够捕捉手机的局域网信号,继而获取MAC地址。只需要将这段地址数据与大数据系统进行配合,包括性别、年龄、收入、婚姻状况、教育程度、新老客属性等在内的机主信息都将一览无余。基于这些信息,服务商即可帮助商家勾勒出用户精准画像,进而开展广告精准推送等等。
一套流程下来,整个步骤就是如此的简单粗暴且有效。而在以往,这些信息的收集和用户画像的勾勒往往需要消耗大量人力和时间去进行用户调查、数据归纳整理等工作,且精准度也因为用户的主观意识而存在不确定性。
而在线上,在得到类似效果的前提下,获取用户数据隐私的成本则更低。明面上,APP会要求用户同意并授权诸如相机、麦克风、位置信息等服务,从而正大光明的采集各类数据;暗地里,无需用户同意或授权,平台往往也能够通过cookie等技术手段采集用户数据,继而勾勒画像,提供个性化服务或精准营销。
令人气愤或无奈的是,为了正常使用服务,用户往往不得不同意那些存在隐私泄露隐患的隐私政策,并授权平台使用相机、麦克风等。
可以说,在智能算法等技术面前,人们的隐私已经不再私密,甚至比以往更易获得。
选择隐私与服务,这道选择题没有绝对的答案
如何保护隐私?传统做法是闭紧嘴巴、避开他人耳目行事。直到1980年,“隐私权”这一概念才被提出,让人们在法律层面找到了保卫隐私的武器。而随着互联网时代、智能化时代的到来,这一法律武器也“学会了”与时俱进。
比如欧盟,其在2016年通过了被称为史上最严的《常规数据保护条例》(简称GDPR),要求数据控制者(收集欧盟公民数据的任何公司)严格执行条例所规定的数据处理规范,及时告知数据主体的使用情况。GDPR已经于2018年5月份正式实施,彼时依旧身陷“剑桥分析”事件泥潭的Facebook刚好撞在枪口上。
可以注意到,GDPR所强调的是公司要将数据使用情况及时告知用户,而非要求公司停止收集数据。为什么?因为就现实情况而言,用户数据在多数情况下是避无可避的。
比如那些正在使用APP的用户,他们难道不知道自己的数据正在被收集吗?非也。现实情况是,他们出于社交等目的不得不继续使用这些APP,且能够在不受到直接物质伤害的前提下享受到一些有价值的服务。
当然,或许有人为了信息不被收集而拒绝使用那些APP,甚至不主动使用任何联网设备,但这样就能够避免数据隐私被采集吗?不是的。
数据的收集主要依赖于各类终端设备,据前瞻产业研究院发布的《2018-2023年中国物联网行业细分市场需求与投资机会分析报告》初步估算,2020年物联网设备数量将达到204亿。
针对手机、电脑等自可控智能设备,用户可以选择断网、遮挡摄像头等物理操作来阻止它们收集并上传数据,但在超市、商场,甚至是大街等被充斥海量智能设备的不可控场景中,出于安全等多样性的目的,被留下数据痕迹是不可避免的事情。
与此同时,数据隐私的控制权也从用户手中转移到采集数据的公司手中。
还记得此前,针对数据隐私以及基于数据训练算法而来的个性化服务,李彦宏曾发表一番言论,在业内引发一场热议。关于“中国用户愿意拿数据隐私换取服务”的观点,这里不予置评,但他所提到的一个观点说的有几分道理,他说“我们也要遵循一些原则,如果这个数据能让用户受益,他们又愿意给我们用,我们就会去使用它的。我想这就是我们能做什么和不能做什么的基本标准。”
在网络四通八达、处处充斥着智能设备的当今,如果没有花费心思进行隐藏的话,人们的一举一动都将近乎完全暴露。这时候,人们需要担心的不是自己的数据是否被收集,而是这些数据是否被不正当利用。而除了正常的法律约束,技术支撑往往也是不可或缺的,尤其是在一切事物都被“数据化”的当下。
保护隐私,法律之外还需要“以毒攻毒”
上至国家、下至普罗大众,”未来是AI时代“已经成为了一个共识。经过这几年的发展,AI已经走下神坛,从一个深奥的话题演变的更为贴近民生。与此同时,人们也享受到了AI所带来的便利。而这其中,最大的功臣之一就是数据。
有了数据,算法能够在不断的训练中提升精准性;有了数据,算法才能针对性的面向用户提供服务,而不是成为一个鸡肋;有了数据,人们所设想和期待的万物智联才会成为现实……可以说,数据是智能化实现的动力。
围绕智能化趋势所带来的数据隐私安全以及是否被滥用问题,诸多国家正在从法律层面进行完善,除了前面提到的欧盟GDPR,我国也于去年5月份正式实施《信息安全技术个人信息安全规范》,要求平台在收集个人敏感信息时,平台应征得用户的明示同意,并区分核心功能和附加功能,以打破”一揽子授权“的难题……
理性的来说,健全的法律只是利用一种合法的手段为人们提供一个武器,对收集数据的公司起到一个震慑的作用,但并不能完全消除人们对于数据隐私被收集和利用的担忧。而基于这股担忧,用户也将在一定程度上”不信任“公司基于数据而提供的服务,久而久之,用户与公司之间必然将产生裂缝,这并不是后者所愿意见到的。
为了避免这种情况的发生,越来越多的公司开始关注起”数据隐私“这一以往被忽略的问题。比如谷歌,在日前举办的I/O大会上全程不忘提及他们在隐私保护上做出的努力。
目前,为了让用户对数据隐私放心,企业的解决方案分为两大方向,一个侧重于数据收集的源头,另一个则将重点放在数据收集之后的保护:
· 数据脱敏
前面也提到,为了达到个性化服务、精准营销等服务,数据被收集是一个必然的事实,只是需要注意的是,并不是所有数据都要被收集。在这方面,部分企业选择收集那些非敏感数据,即脱敏数据。
这一过程中,当涉及客户安全数据或者一些商业性敏感数据的情况,在不违反系统规则条件下,企业会通过脱敏规则对数据进行改造,剔除身份证、手机号、卡号、年龄、性别等个人敏感信息。
目前,“数据脱敏”这一方法被大多数企业所采用,区别只在于具体方式不一样。经过脱敏处理后,留下则是结构化数据,不存在过于敏感的隐私问题。一般而言,基于脱敏数据而形成的用户画像是不完整的,做不到特别精准的个性化推荐、服务,但是对于一些商业目的而言,这些已经足够。
与此同时,从数据智能化的流程上讲,收集脱敏数据意味着用户的敏感信息从最初就被剔除在外,相当于从源头即开始保护用户的数据隐私,从而保证了数据隐私的安全性。
·边缘计算
自去年开始,边缘计算就一直被业界所推崇,而在探讨其优势的时候,“提高数据的安全性与可靠性”这一点必定在列。
在边缘计算被提出之前,终端设备在云计算模式下需要将所收集的用户数据上传至数据中心,也就是所谓的云端,某些时候常常造成数据拥堵的现场,而更需要提高警惕的是,这些数据极有可能在上传过程中,亦或是在终端服务器内遭到泄漏。
不同于云计算的操作模式,边缘计算将包含用户隐私的数据放在边缘节点,以进行保存和处理分析,相对提高数据的安全性。
另外,因为是将数据放在边缘节点,边缘计算的数据隐私避免了长途跋涉的过程,在缩减数据上传时间、躲开数据拥堵的同时,也提升了设备的响应速度。
· 联邦学习
边缘计算之后,近期出现了又一个针对数据隐私保护的新概念,即“联邦学习”。
“联邦学习就像一个安全的道路网络,可以既满足人工智能的训练要求,又保障我们的个人隐私不被滥用,因为这个道路网络上跑的是无法还原到原始数据的加密信息。”创新工场南京国际人工智能研究院执行院长冯霁表示。
以学生的个性化教育为例,围绕该学生的所有数据被分散化的,这并不利于最佳模型的训练。同时,若将数据在不进行加密或不在安全标准下进行跨地域、跨数据源的聚合和交换,企业也无法在所有不同数据源上训练最能反应该学生学历历程的AI模型,也需要承担极大的数据隐私风险。
而借助联邦学习,业界可以建立一个安全的共享机制,不需要交换原始隐私数据,企业只需要在加密的数据上进行聚合训练,就可以得出完整反映学生情况的AI模型,并基于该模型为学生针对性的定制学习计划。
联邦学习的这种做法,相当于在原始数据外围增加了一把锁头,并进行模糊化处理等二次加工。
在智能化时代,数据就是新的生产力,两者之间相互扶持,一荣俱荣、一损俱损。没有数据的支撑,智能化也只能停留在浅层表面,相比于它真正所能够提供的价值,停留在表面的智能化只能算是碌碌一生。
若要得到数据的支撑,那么安全性则是一个始终都绕不开的话题。只有安全性得到保障,用户才会信任算法、信任服务,继而才会使用它,并向提供服务方进行反馈,形成一个良性循环。
最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!
硬科技产业媒体
关注技术驱动创新