算法歧视的技术本质与法律性质研究——以大数据杀熟为例

算法是一系列解决问题的步骤和指令,是程序设计的核心,算法的优劣在很大程度上影响着程序的效率1。一般认为,算法同…

算法是一系列解决问题的步骤和指令,是程序设计的核心,算法的优劣在很大程度上影响着程序的效率1。一般认为,算法同数据一样本质是中立的,一旦其与数据相结合,数据便可通过算法技术形成高价值的信息资源。如何获取数据,获取什么数据,如何筛选数据,这些问题都依赖于算法,算法日益成为数字经济时代必不可少的工具,有学者甚至将当前的社会称之为算法社会(Algorithmic Society)2。

一、问题的提出

什么是算法歧视?巴罗卡斯( Solon Barocas) 和塞布斯特( Andrew D.Selbst) 认为,算法自动化决策可能给某些群体带来歧视性的不利结果。郭哲引用马克思·韦伯的观点3,指出“算法权力证件逐渐形成一种‘准公权力’,使得传统的权力格局发生了权力主体去中心化、权力作用范围的延展化和权力互动的双向化之变迁,改变了原有的权利——权力格局。”需要注意的是,当算法从权利转变为权力,其就拥有了对社会的强制力,但由于算法具有技术专业性、单方性和隐蔽性的特征,这种强制力便很可能是被疏于监控的。刘友华4把算法偏见分为损害公众基本权利的算法偏见(具体包括性别歧视和种族歧视两类)和损害竞争性利益的算法偏见,并指出为了维护经营者和消费者双方的权益,应当对运用算法限制竞争的行为予以规制。刘晓楠5进一步把目光投入到AI领域,他指出,在应对算法歧视的对策上,应当主要从严控数据质量、透明性、可解释性等方面入手,以规制AI适用的伦理困境。

近年来,随着社会生产方式的变革,算法频频出现不公平的运算结果。在斯坦福疫苗分配一案中,5000支疫苗在算法的运算下只分配给了一线医护人员了7支,而绝大多数疫苗却分配给了退居二线的高级教职人员,不禁让斯坦福大学的医师们喊出了“算法去死”的口号6。这是一种算法自动化决策带来歧视性不利后果的典型表现。一对夫妻一起申请了Apple Card,但丈夫获得的信用额度确是妻子的20倍——即便是夫妻两人共同报税,而且妻子的信用积分更高。此外,美国信息技术行业企业家Hansson则明确表示,他认为Apple Card的程序存在性别歧视。他的信用额度也是他妻子的20倍,但即使他还清了最低还款额后,Apple Card也不会在下一个结算期前批准妻子的任何支出额度7。更有甚者,今年2月20日,谷歌Ethical AI(AI伦理)团队的创始人玛格丽特·米切尔更是因为其文章中所描述的对于AI人工智能中所蕴含的对少数边缘群体偏见的言论而被解雇。

大数据杀熟在如今也广为诟病8。“大数据杀熟”的逻辑是根据用户的消费记录和其他个人信息,判断用户消费能力。消费能力强的,价格就贵一点,消费能力弱的或者新用户就便宜一点。价格歧视存在的一大重要前提是,企业能够区分对商品需求程度不同的消费者群体。这在大数据时代很容易实现,互联网公司可以通过账户资料、搜索记录、购物历史等形成用户画像,对其消费能力和消费意愿作出较为准确的判断。

大数据杀熟这个词于2018年3月首次进入大众视野。当时有一名网友无意中发现,自己长期在某网站预订的酒店房间价格在380-400元之间,而用朋友的账号查看时,同一间的价格只有300元左右9。大数据杀熟远不止价格歧视这么简单,优先级降低也是杀熟的一种表现。上海徐汇区居民汤先生,为了送女儿上学,在某网约车服务平台上购买了多张代金券。本来是图个优惠,但却总是打不到车。从未买过券的妻子,打车却是一叫一个准10。以信息差减少用户选择迫使用户高消费也是大数据杀熟的体现之一,北京朝阳区某外企从事咨询业务的张玲常在某OTA(在线旅行社)上预定高档酒店11。一次她去外地出差时发现,用自己账号登录在线旅行社时显示,某酒店只剩高级客房,但退出账号查询,平台却显示还有多间普通客房。

不仅如此,大数据杀熟在某些领域甚至上升到“大数据售假”的阶段。一些平台代购化妆品,对于Dior、阿玛尼这些昂贵的化妆品,会根据其掌握的买家的收入、消费状况进行细分:如果系统判断购物者是个富裕的人,平常一直用此类昂贵化妆品,就会邮寄正品;如果系统判断购物的人是一个消费水平较为一般的人,可能很少、甚至不会购买专柜里的化妆品,就会邮寄A货12,反正以此类人的消费水平,大概率未曾购买过正品,自然无法识别其购买的产品是否具备应当具有的质量。而商家同时会标榜发布“7天无理由退货”,即使被发现是假货,只要同意退货就能够解决问题,这将不会对商家造成除了运费以外的任何损失。然而现实情况下,退货率只有2%而已。

这不禁带给我们深思,算法歧视的本质是什么?以大数据杀熟为典型的算法歧视之法律性质如何认定?如何有效规制算法歧视?

二、算法歧视运用的现状

2014 年,白宫发布了一份题为《大数据: 抓住机遇,保护价值》( Podesta et al.,2014)的报告13。该报告认为,受数据来源的特定性和算法设计者主观意图的影响,算法自动化决策往往会对申请者的工作、教育或信贷构成隐性偏见。这种结果可以自我强化,从而系统性地减少个人获得信贷、就业和教育的机会,这会使他们的处境恶化并在未来的申请中处于不利地位14。此外,该报告指出算法定向投送针对性内容也并非全是坏处,其具备一定完美个性化的福利与双赢。融合大量不同类型的数据并实时处理他们,就有可能在消费者开口之前便已提供给他们正确的信息、产品或者服务,这既为消费者提供了便利,也增加了商户的销量,提高了交易的效率。

然而,“完美的个性化”(“perfect personalization”)也会在定价、服务与机会方面造成微妙的或是不明显的歧视。例如,国外的一项研究表明15,涉及到黑人常用名(例如,“杰梅因(Jermaine)”)的网络搜索比涉及到白人常用名(例如,“杰弗里(Geoffrey)”)的搜索结果中更容易出现含有“逮捕”意味的广告。这项研究无法确定为什么种族偏见的结果会产生,因为从算法的角度来看,广告显示的生成是一个基于多变量的综合决策过程。显然,不同的群体通过不同的信息服务所产生的结果,有可能对个人造成真实的伤害,这种伤害可能发生在任何时候,比如求职、买房甚至只是简单搜索信息的时候。还有一处值得关注:大数据技术能够从意识形态或文化上把人隔离开来,就像泡沫过滤器一样,有效地防止他们接触到一些对他们的偏见与假设构成挑战的信息16。此外,有公司开发的犯罪风险评估算法 COMPAS对犯罪人的再犯风险进行评估,并得出一个再犯风险分数,17据统计,美国有超一半的州采用此类风险评估软件。其中一些州还使用评估软件来预测罪犯的再犯率以决定是否对其进行保释18。2016 年,ProPublica 调查显示19,COMPAS系统在对罪犯进行再犯评估时存在歧视黑人罪犯的情况,在那些没有再次犯罪的罪犯中,系统评定黑人的再犯率是白人的两倍,这导致黑人可能被苛以严厉刑罚,被保释的可能性也大大降低。因此,美国联邦政府及各州都把存在实质性歧视影响的算法纳入法律调整的范围,并将歧视性算法运用于司法审查。

在大数据时代,一些公司正在搜集并处理大量急剧增长的数据,并煞费苦心地挖掘个人资料与他们的喜好。然而,公众对这些活动的范围与规模的认知是有限的,消费者是很少有机会来控制这些被搜集并且反复使用的数据文件的,这将进一步加大算法歧视的风险。一般认为,算法歧视已经具备四个比较显著的特点:一是算法歧视更加精确。算法已经能够对每个用户精准画像,被打上歧视标签的用户很难逃脱;二是算法歧视更加多元化。算法能够挖掘出更深层次的的隐形特征来作为其歧视处理的依据,比如网页浏览记录、购物记录、轨迹路线等;三是算法歧视具有片面性。其不同于人类社会认识的综合性和动态性,往往很难获取或者识别用户的全部数据;四是算法歧视更加隐蔽。传统上对基于种族、性别、民族等特征的歧视是为法律所禁止的,但算法却可以规避这些规定。这些特点不仅使算法直接或间接地影响了社会成员的活动甚至思想,而且对于某些特定的人群存在着明显的不公平。例如,复旦大学教授孙金云的团队做了一个关于手机打车软件的调研,团队尝试用打车软件叫车800余次,发现苹果手机的机主更容易被专车、优享这类更贵车型接单。如果不是苹果手机,则手机越贵,越容易被更贵车型接单。不知不觉地,算法歧视已经渗入到我们生活的方方面面。

三、算法歧视本质的技术性分析

大数据技术以数据为研究对象,弥补了以往统计学的高成本、高误差、时效低及样本局限等劣势,大数据技术也是统计学方法的改良与拓展,是统计学与计算机科学的完美结合。数据作为人类认识客观世界的标度,在认识论上,大数据技术尽管强调对应关系,但本质上遵循的依然是归纳法。数据导入者所搜集的数据不可避免地带有收集偏好,因此其导出的结果带有偏见也就不难理解了。微软所出的聊天机器人就是典型的例子,2016 年微软发布了的聊天机器人Tay,“她”本是一位19岁的清纯少女20,然而上线仅一天就“被学会了”严重的种族歧视因此被迫下线;而微软的另一款聊天机器人小冰,也经常因为内容低俗而饱受诟病。因此,数据之所以会导出歧视的结果,很大程度上是收集的数据本身就带有歧视。简言之,对非中立的数据进行学习必然得到非中立的学习模型,进而产生非中立的价值判断与决策。

机器学习是算法投入运行的必经阶段,而算法歧视就孕育于机器学习之中。一般认为,机器学习包括赋予定义、数据收集、数据清洗、数据审查、数据分割、模型选择和模型训练七个步骤。赋予定义的目的是明确所要解决的问题;数据收集即我们通常所认为的大数据信息接收,收集的数据量越多,算法的成熟度越高;数据清洗主要做缺失值处理和清除数据中的错误值,以维持代码运行的稳定性;数据审查解决的是数据是否合理、是否适用于研究者所赋予之定义的问题;数据分割即将数据分割为训练数据集和验证数据集,边训练边验证,以期获得模型准确性的双重保障;而模型选择和模型训练则是算法投入运行的最终完善环节。从问题定义到数据的收集、清洗、分割等步骤,算法设计者自身的价值判断始终贯穿其中。算法设计者的主观评断决定着输入变量、结果变量、数据的收集范围、数据特征的选择,其个人主观色彩随之融入模型,造就富集个人偏见的模型21。此外,数据模型的合理性和准确性依赖于数据的选择和收集,而研究者由于个人价值观的影响,其思想很难保持绝对的中立,其选择的数据往往能体现出浓厚的个人感情色彩,甚至许多研究者自己也未注意到其数据的选择对某方面确有偏爱,因此模型训练的方向本身就可能是歪曲的,最终得到歪曲的算法评价结果也不难理解。此外,草率选择数据、不完整、不正确、过时的数据、选择偏差等也将造成算法偏见。值得注意的是,算法在边输出边学习的过程中,容易受到一定类型的使用者的价值观的影响,从而改变了自己原有的运算路径,出现类似微软公司Tay一般的偏差结果。

特征提取的思路也会对算法中立产生极大的影响。以分类模型为例,一个分类模型的分类质量取决于分类的合理性和有效性。要保证分类的合理性,就必须首先保证分类标志的单向性,即每个分类标志都必须是建立在对象的某一确定特征上的,然而这在现实中是无从保证的。在特征选择和特征提取阶段,数据便不得不人为地被分为重要的、次要的和无关紧要的几个部分,这就可能会对模型的有效性和合理性产生影响。此外,不同算法开发者达成运算结果的运算方式也不同。尽管殊途同归,但编程语言的设置也充满了“偏好”的味道。此时,面对深刻而复杂的社会情境,看似具有相当合理性的运算过程就有可能在大数据的冲击下,学习产出扭曲的答案。可见,在算法的开发过程中,设计者潜移默化地将自己的价值观灌输给算法,而这些无法做到完全中立的价值观最终导致了算法本身的偏好乃至歧视的问题。

综上,究其本质,算法歧视属于社会结构性歧视的延伸,因为算法的有效性建基于大量数据材料分析,而这些材料大多都源自社会现实,所以,算法歧视其实是社会结构性歧视的延伸22。具体而言,社会不同领域的价值取向、甚至研发者个人的价值取向都可能影响算法运算的公平性。

四、大数据杀熟的法律性质认定

看破了算法歧视的本质,我们把目光转移回热点情形——大数据杀熟的性质认定和保护上来。作为算法歧视的一种典型模式,大数据杀熟到底是一种营销手段还是民事法律意义上的欺诈行为?

有人认为23,“大数据杀熟”只是一种市场营销行为罢了,虽不道德,但是并未上升到违法的程度。在这种观点下,每当一种新的商业模式诞生,在资本推动下,互联网平台为获得客户和流量,都拿出小恩小惠,进行低价销售或者贴钱补贴,获取顾客的信任。在获取用户相关数据,培养出用户使用习惯后,就开始悄无声息地抬价——他们要把失去的,亏掉的,在以后的交易中变本加厉地赚回来,这实际上是一种互联网商业的惯用套路而已。但大部分学者认为这属于违法行为,只是对于行为的定性存在不同看法。有学者认为,“大数据杀熟”是由于算法偏差导致的24。有学者认为,“大数据杀熟”在一定程度上侵犯了用户的知情同意权25。也有学者认为,“大数据杀熟”行为是通过不同的用户画像对消费者进行的价格歧视现象。

然而,承认“大数据杀熟”这种现象的广泛存在并不等于其不具有违法性。应当明确,大数据杀熟违反诚实信用原则,属于合同欺诈行为,购买者可以依据实际情况要求撤销合同或者要求商家赔偿因欺诈而得的超额利润。本文认为,大数据杀熟之所以有别于传统的营销模式,关键在于其交易方式的变化。过去,消费者与商家线下砍价行为确实常见,也是一种常见的社会生活现象。然而,由于其折射范围小,符合社会成员一般的心理预期和购买习惯,符合公序良俗原则,自然是不构成违法行为。但是在电商、互联网交易的模式下,交易的对价同时面对全体社会成员,应当产生明确的公信效力。简言之,交易的方式已经发生变化,平等应该成为这种交易模式下的基础性原则,否则就会对交易的稳定性产生巨大的破坏。此外,“价格歧视”会使同等交易条件的接受者在价格上处于不平等地位,在《价格法》中,这属于被禁止的行为。《消费者权益保护法》也有关于“消费欺诈”的界定,如其第八条规定,“消费者享有知悉其购买、使用的商品或者接受的服务的真实情况的权利”,其中重要的一项权利内容就是“费用”。因此,可以认定“大数据杀熟”本身就是一种欺诈行为,在现实生活中,用户被欺诈的数额可能较小,往往缺少维权的动力,但是商家却获利巨大。因此,应该对这种现象予以具体的规制。

五、对算法歧视的规制

如上所述,在机器学习的各个环节中都潜藏着人类有意或无意的价值偏好,这些价值偏好塑造了人工智能的价值观,在人工智能的学习和决策过程中成为价值判断的标准。人工智能的价值并非具有中立性,实质上便是根源于机器学习算法中各部分的价值偏好。从算法结构的角度看,人工智能的价值非中立性是不可避免的,扎根于机器学习算法的各个重要组成部分之中。随着科技的发展,人工智能医生、智慧法院等人工智能领域的建设将更加深入,因此必须尽快把人工智能纳入道德体系范畴之中。

1.应当进一步明确企业对人工智能歧视风险的责任。我国《公司法》明确规定:公司应当担负起社会责任26。正如人的价值观难以绝对中立,人工智能技术价值的非中立性是其本质属性。但正是因为其存在这个属性,我们才更要在合理的范围内减少其风险。正如《人工智能标准化白皮书》27所称,制定人工智能产业的发展标准势在必行。而重点就在于企业伦理风险的内部防控。企业应当对数据进行审查,在程序形成阶段便开始进行伦理合规筛选,增强数据的透明度和自律度,从智能领域的主要推动领域防控数据歧视风险。

2.理论和算法研究应当秉持开源的价值取向。开源即算法编制者将源代码公之于众,以其创作带动所有算法社区工作者的进步。当人工智能代码秉持开源之标准时,也会将代码置于广大算法编程者的监督之下,从而最大限度地减少算法偏见所带来的风险。

3.应当采用合理的技术手段防控。将算法偏见扼杀在算法开发阶段是消除算法偏见最有效的办法。如使用价值敏感设计方法进行分析层面的伦理概念分析,将敏感领域的数据概念进行扩充和细究28。此外,对于管理者而言,应当设立伦理风险的防控制度,例如可以设定伦理责任分级制,细化各责任主体的伦理责任。对于用户而言,传递积极常规的数据也是减少算法偏见的有效办法。

4.应当建立黑名单制度,明确主体监管部门。大数据“杀熟”一事牵涉面较广,头绪也较多,一方面要明确“归谁管”,可考虑由国家市场监管总局作为主体监管部门,牵头组织商务、工信、网信、文旅等有关部委一道,铸造监管合力,消除监管盲区;另一方面要明确“怎么管”,引入外在的制裁与约束机制,建立失信黑名单,严惩失信行为,提高企业违法成本;同时,应使用大数据分析技术对“杀熟”行为进行自动侦测和预警,提高执法效率和力度。

5.鼓励用户集体诉讼。美国对于算法合规的司法审查相对来说较为成熟,而我国法律制度与美不同,因此,加强对算法歧视的事中及事后救济势在必行。个人被侵权的案件涉及数额一般较小,缺乏诉讼动力,因此司法机关可以行使释明权,告知被侵权者“采取集体诉讼的方式有利于其权利的维护”。例如意大利户户送算法歧视一案便是通过意大利总工会位于博洛尼亚的三个分工会组织提起的诉讼,法院经过论证,最终认定户户送公司对外卖骑手可靠性排名的算法构成间接歧视,这可以说是算法歧视领域“历史性”判决29。

六、总结

算法歧视已经不仅仅是技术方面的区别对待,在很大程度上其已经涉及到对权利主体人格和尊严的侵犯,违反了我国《民法典》人格权编的一般条款。在这个世界上,绝对的公平很难实现,算法运行也是如此,算法可能导致并放大歧视与偏见。不同领域的算法运行受多方因素的影响,有的过于具体、有的过于细枝末节,社会整体价值观也尚在发展阶段,因此实现完全的算法公平并不现实。然而,必须要指出,算法完全公平难以实现是由于技术中立因素的影响,而绝不应当是有心人刻意为之。针对大数据杀熟等刻意行为,应当采取严格的法律规制措施,恢复市场秩序,保护消费者合法权益。

明确了算法歧视的产生内因和学习方式后,应当从算法机器学习的各个环节对可能的歧视产生予以最大限度的避免,如赋予定义时尽量考虑公平因素,收集数据时尽可能使数据具有较宽的涵盖范围等。

最后,由于算法领域的绝对公平难以实现,因此平台应当加强歧视反馈机制,对用户反馈的可能存在价格歧视的行为予以自查,加强自我监督、自我管理,通过行业自律内部解决可能存在的算法歧视问题。

关于作者: wenlaw

问律师-专业的法律免费快速咨询服务平台

为您推荐

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

免费律师咨询
免费律师咨询
热线电话