Loading…

浅谈数据垄断



互联网的高速蓬勃发展以及个性化的需求,以个人ID为中心产生了大量的数据。当一个互联网平台强大到能够提供多样化的一站式的服务时,或者某个平台有能力获得个人多样化的数据时,更多的个人数据即被掌握,于是就产生了数据垄断的问题。数据垄断的核心问题是在这些数据价值的对立面,如何合理的使用数据,国内外的各大互联网平台都不可避免的要正视这个问题,在立法层面也需要快速审慎的推进。

数据垄断的判断要有几个关键要素。首先是一个平台是否有足够的可能收集到用户多个维度的数据,这些维度包括诸如用户的交际圈、购买行为、资金能力、出行情况等各个关键的生活面。单一的数据维度主要是隐私保护的问题,若能够获得多个维度的数据,用户的个人特征和行为就变得更有预测性,进而使得数据持有者有能力在交易中获得无比的优势,即该平台具备数据垄断的可能。

具备数据垄断的可能并不能判定一定数据垄断,是否合理的使用数据才是判断的关键。是否合规的使用用户的数据、是否由于数据缺失或瑕疵形成了对于用户的数据偏见,以及对于数据的删除和转移的权限的赋予与否,都是判断数据垄断的决定性因素。

先谈数据的合规使用。不过谈及具体怎么使用数据之前,平台先要做到告知义务,即告知哪些数据是被采集的,以及哪些数据是基于采集的数据形成的再加工数据。大多数互联网公司或数据收集方并没有在TOS里面详细告知用户哪些数据是被采集或加工的,不知道哪些数据被采集,就更无从知晓二次加工的数据是如何形成的。告知义务之上,平台要清楚的告知用户数据将被如何的应用以及对用户的价值,这里很重要的是用户应对这些数据的应用有完全的控制权限,用户可以选择开启或关闭这些数据形成的应用。数据的合理使用还有两个方面就是数据的分享及存储。用户应有权力知道自己的个人数据是以何种形式被分享及存储,也可以选择开启或关闭自己的个人数据的存储或分享,无论是匿名的或实名的数据。数据的合规使用需要企业有强有力的数据伦理,但也还需要强有力的法律支撑。这部分目前欧洲走的比较靠前,中国的法律还是比较欠缺,同时执法力度也很关键。

不过纵使合规的使用数据,是否有数据偏见就显得尤为重要。数据偏见产生的主要因素是数据缺失或瑕疵,以及算法偏见。这当中算法的偏见是最为难以解决的,尤其在AI当道的时候,人们对机器化数据分析越发的依赖,但一个由某个人或团队设计的算法是否公平将很大程度上左右对某个特定用户或某个特定群体的画像,进而影响用户的潜在的权益,诸如偿付能力的判断、品味的判断等。由于算法涉及商业机密,眼下对于算法偏见可能最为可行的方法算是在数据分析方内部成立算法伦理评审小组,对于某一个具体的分析的数据源、数据精度、数据加工的方法以及数据被应用的伦理或商业影响进行分析决策,将数据偏见降低到最低。对于公共服务的应用,应推进算法的公开透明化,供社会监督及评审。

最后就是数据的删除与转移了。数据的删除算是比较简单的,即当用户不再使用服务的时候,用户可以选择彻底的删除与自己相关的数据。不过实际的实现是很难的,一方面难以监督,有可能存在表面删除但还存有备份,另一方面则需要数据采集及持方有很强的数据伦理。这部分也需要法律的介入,建立严厉的惩罚机制,促进数据伦理的形成。数据的转移是更为复杂的。数据转移的目的即当用户从一个平台转移到另一个平台时,其有权力将先前平台的数据转移过去,快速的丰富自己在新平台的画像。数据的转移一方面是法律的问题,即法律需要强制要求各平台方建立数据转移的能力,否则在巨大的数据价值前,数据的转移机制很难建立。在另一方面,数据的转移需要行业标准的推动,即在各家数据结构不一样的情况下,对于数据转移档案采用统一格式,不过这也需要一个过程。

总之,应对数据垄断并不复杂,关键的是立法及企业责任的培养,才能更好的保护我们每一位用户。


发布在: 2019年12月26日 | 分类: 杂七杂八
Tags: ,