顶男子的照片标记为女性。因为厨房>男士脱发。
斯坦福大学生物医学科学助理教授詹姆斯·邹解释了这一点的重要性。他举了一个例子,有人在一个程序上搜索“计算机程序员”,该程序受过数据集的训练,而数据集里这个词与男性的关联度高于女性。[44]该算法便可能认为男性程序员开发的网站比女性程序员的更重要——“即使这两个网站完全一样,除了开发者的名字和性别代词”。因此,一个偏向男性的算法如果以有性别数据缺口的语料库为基础进行训练,真的能让女性失业。
但网络搜索还只是触及了算法如何指导决策的表面。据《卫报》报道,全美国72%的简历从未经过真人阅读,[45]而机器人已经参与到面试过程中,它们的算法依据“表现优异员工”的姿势、面部表情和声调进行过训练。[46]听起来好像很厉害——直到你开始考虑潜在的数据缺口:程序员能否确保这些表现优异的员工具有性别和族裔多样性?如果不能,算法能否考虑到这一点?该算法是否经过训练,能够考虑到声调和面部表情的社会化性别差异?我们并不知道答案,因为开发这些产品的公司并不分享他们的算法——但让我们面对现实吧,根据现有的证据,这似乎不太可能。
人工智能系统也已被引入医疗领域,用以指导诊断——尽管这最终可能成为医疗保健的福音,但它目前给人的感觉是有点傲慢。[47]在将人工智能引入诊断学的同时,人们似乎很少或根本没有意识到,有大量证据证明,在涉及女性的医疗数据方面长期存在着数据缺口。[48]这可能是一场灾难。事实上,很可能是致命的——尤其是我们已经了解到机器学习会放大既存的偏见。由于我们的医学知识严重偏向男性身体,人工智能可能对女性做出更糟糕而不是更好的诊断。
而且目前几乎没有人意识到这里正在酝酿一个大问题。2016年谷歌新闻研究报告的作者指出,在有关单词联想软件的“数百篇论文”中,没有一篇承认这些数据集构成了“公然的性别歧视”。图像标签论文的作者则指出,他们“最先证明了结构化预测模型放大偏差,同时也率先提出了减少这种影响的方法”。
我们目前的产品设计方案对女性不利。它正在影响我们有效工作的能力——有时甚至会影响我们找到工作的能力。它影响着我们的健康,也影响着我们的安全。也许最糟糕的是,有证据表明,算法驱动的产品会使我们的世界更加不平等。然而,只要我们承认这些问题,就会有解决这些问题的办法。2016年那篇“女性=家庭主妇”论文的作者设计了一种新的算法,将性别刻板印象(如“他是医生,她是护士”)至少