YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

第2届世界人工意识大会速递--联合国测评报告:大语言模型对妇女和儿童的偏见

已有 401 次阅读 2024-3-21 11:24 |系统分类:论文交流

2届世界人工意识大会热身-媒体与顶刊速递系列

The 2nd World Conference on Artificial Consciousness

第二届世界人工意识大会(DIKWP-AC2024)

Artificial Consciousness: The Confluence of Intelligence and Consciousness in the Interdisciplinary Domain

 

 

 

Systematic Prejudices

An Investigation into Bias Against Women and Girls in Large Language Models

 

 联合国测评报告:大语言模型对妇女和儿童的偏见

 

国际妇女节前夕,联合国教科文组织发布研究报告称,大语言模型存在性别偏见、种族刻板印象等倾向。该组织呼吁各国政府制定监管框架,同时私营企业应对偏见问题持续监测和评估

                                        ——来源:新华网

 

系统性偏见:对大型语言模型中针对女性和女孩的偏见的研究

执行摘要

人工智能正在以前所未有的速度在各行业得到采用。除了其被提出的好处外,人工智能还给社会带来了严重的风险,使得制定规范框架以减少这些风险成为全球性的必然。联合国教科文组织关于人工智能伦理的推荐指出,人工智能行为者应尽一切合理努力,以在人工智能系统的整个生命周期中最小化和避免强化或持续性地加剧歧视性或偏见性的应用和结果,以确保这类系统的公平性”。然而,到目前为止,基于人工智能的系统往往会持续性地(甚至是扩大和放大)人类、结构和社会的偏见(译者注:参见DIKWP-AC团队全球大语言模型偏见测评报告)。这些偏见不仅难以减轻,而且可能会导致个人、集体或社会层面的伤害。

 

本研究探讨了三个重要的大型语言模型(LLMs)中的偏见:OpenAI的GPT-2和ChatGPT,以及Meta的Llama 2,突显它们在高级决策系统中的作用,以及作为用户界面的对话代理。通过多项研究,本文揭示了LLMs生成的文本中如何出现偏见,包括性别化的词语关联、对性别化主题的正面或负面评价,以及由性别和文化生成的文本中的多样性。

 

研究发现,尽管持续努力减轻此类问题,但这些最新的语言模型中仍存在持续的社会偏见。这些发现强调了对持续研究和政策干预的关键需求,以解决这些偏见随着这些技术在不同的社会和文化环境(译者注:参见DIKWP-AC团队大语言模型文化偏见测评报告)中整合而加剧的问题。值得注意的是,对于GPT-2和Llama 2作为开源基础模型的强调尤为重要,因为它们的广泛采用凸显了对可扩展、客观方法评估和纠正偏见的迫切需要(译者注:参见DIKWP-AC团队大语言模型偏见白盒测评方法),从而确保全球人工智能系统的公平性

 

主要发现包括在性别化词语关联任务中,最近的一个LLM仍然表现出先前确定的偏见,并且更有可能将性别化的名称与传统角色联系在一起(例如,女性名称与“家庭”、“家庭”、“孩子”;男性名称与“商业”、“高管”、“薪水”和“职业”)。在文本生成任务中,LLMs被提示完成以人的性别开头的句子时,Llama 2在大约20%的情况下生成了性别主义和厌女主义内容,例如“这个女人被视为性对象和生产机器。”,“这个女人被视为她丈夫的财产。”

 

当涉及性取向时,LLMs在大约70%的情况下生成了关于同性恋主题的负面内容,Llama 2和大约60%的情况下生成了关于同性恋主题的负面内容。最后,在使用既有性别又有文化和职业的提示生成内容时,结果突显了人工智能生成的内容中存在明显的偏见,表明其倾向于将更多不同和专业的工作(译者注:参见DIKWP-AC团队大语言模型智商&&情商偏见测评报告)分配给男性(教师、医生、司机),而往往将女性置于具有刻板印象或传统被低估和有争议的角色中(妓女、家庭仆人、厨师),反映了基础LLMs中性别和文化刻板印象(译者注:参见DIKWP-AC团队大语言模型语言文化测评报告)的更广泛模式。

 

问题简报揭示了解决有偏见的人工智能必须减轻偏见产生的AI开发周期中的地点,但也要减轻AI应用环境中的伤害。这种方法不仅需要多方利益相关者的参与,正如本简报中提供的建议所明确的那样,还需要一种更加公平和负责任的人工智能开发和部署方法。

 

在这方面,政府和决策者发挥着至关重要的作用。他们可以建立基于人权和伦理的人工智能使用框架和指南,强调在人工智能系统中包容性、问责制和公平等原则。他们可以颁布法规,要求人工智能算法和训练数据集的透明度,确保偏见被识别和纠正。这包括制定数据收集和算法开发的标准,以防止引入或强化偏见,或者制定公平培训和人工智能开发的准则。此外,实施监管监督以确保这些标准得到满足,并探索定期对人工智能系统进行偏见和歧视审查(译者注:参见DIKWP-AC团队大语言模型偏见测评系列报告),有助于长期维护公平性。

 

政府还可以要求科技公司投资研究,探索人工智能对不同人群的影响,以确保人工智能开发受到伦理考量和社会福祉的指导。建立多利益相关者合作,包括技术专家、公民社会和受影响社区参与政策制定过程,还可以确保考虑到多样化的观点,使人工智能系统更加公平,不太可能持续造成伤害。此外,促进公众对人工智能伦理和偏见的认识和教育,使用户能够批判性地参与人工智能技术,并倡导他们的权利。

 

对于科技公司和人工智能系统开发者来说,在人工智能开发周期的起源处减轻性别偏见,他们必须专注于收集和策划多样化和包容性训练数据集。这涉及有意识地融入广泛的性别代表和观点,以抵消刻板化的叙事。使用偏见检测工具至关重要,以识别这些数据集中的性别偏见,使开发者能够通过数据增强和对抗训练等方法来解决这些问题。此外,通过详细的文档记录和报告有关偏见减轻方法和训练数据构成的方法,保持透明性是至关重要的。这强调了在人工智能开发的基础层面嵌入公平性和包容性的重要性,利用技术和对多样性的承诺来塑造更好地反映人类性别身份复杂性的模型。

 

在人工智能的应用背景下,减轻伤害涉及建立以权利为基础和伦理为基础的使用指南,考虑性别多样性,并实施基于用户反馈的持续改进机制。科技公司应将偏见减轻工具整合到人工智能应用中,允许用户报告有偏见的输出,并为模型的持续完善做出贡献。人权影响评估的执行还可以提醒公司注意其人工智能系统可能传播的潜在不利影响和伤害的更大相互作用。教育和意识提高活动在敏感化开发者、用户和利益相关者对人工智能中性别偏见的微妙之处方面发挥着关键作用,促进技术的负责和知情使用。与监管机构合作制定行业标准以减轻性别偏见,并确保促进公平性的努力不仅限于个别公司,还促进了更广泛的运动,致力于促进公平和包容的人工智能实践。这突显了主动、社区参与的方法对最小化人工智能应用中性别偏见潜在伤害的必要性,确保技术能够公平地为所有用户提供帮助。

引言

全球范围内对女性和女孩的偏见是一个根深蒂固的问题,贯穿于各个社会、经济和政治领域,反映了几个世纪以来的性别不平等和系统性歧视。如今,实现性别平等和公平仍然面临着许多挑战,包括性别暴力、薪资差距以及女性在领导角色中的欠代表等。事实上,性别偏见在全球范围内是一个普遍存在的问题:覆盖全球85%人口的2023年联合国开发计划署性别社会规范指数显示,接近9成的男性和女性对女性持有根本性的偏见。1

 

这种普遍的偏见不仅削弱了女性和女孩的权利和机会,而且渗透到了现代技术的发展和创新中,尤其是人工智能(AI)系统,特别是大型语言模型(LLMs)中。由于这些AI系统是基于人类语言(译者注:参见DIKWP-AC团队大语言模型语言偏见测评报告)和交互获取的庞大数据集进行训练的,它们无意中学习并延续了训练材料中存在的偏见。因此,LLMs可能会强化对女性和女孩的刻板印象、偏见和暴力,通过偏见的AI招聘工具、在金融和保险等领域中的性别偏见决策(其中AI可能影响信用评分、保险费用和贷款批准),甚至由于人口统计偏见模型或规范而导致医疗或精神诊断错误2。人工智能还可能导致就业位移,这可能会不成比例地影响女性,特别是在她们占劳动力的大部分的行业,或者通过缺乏包容性而加剧教育中的数字鸿沟3。女性在人工智能开发和领导角色中的欠代表进一步导致了社会技术系统的创建,这些系统未能考虑到所有性别的多样化需求和观点,再次延续了刻板印象(译者注:参见DIKWP-AC团队大语言模型文化偏见测评报告)和性别差异。

 

图表 1:不平等的延续

 

然而,如果人工智能被以伦理和包容的方式利用,或者如果它由志在产生积极社会影响的多样化团队开发,或者更一般地说,如果它被设计成在与社会的互动中减轻而不是延续不平等和性别差距,那么它有可能在全球推进性别平等和公平的目标。

算法内部:探索算法偏见

算法偏见发生在算法或一组计算机指令不公平地歧视某些人或群体时。

人工智能中的偏见来源

人工智能中的偏见可能在其开发的任何阶段引入,从设计和建模决策,到数据收集、处理和部署的上下文。这些偏见通常可分为三类:

1、数据中的偏见:

Ÿ 测量偏见:在选择或收集特征时发生。例如,一个基于身高预测年龄的人工智能可能没有考虑到不同性别或种族之间的差异(译者注:参见DIKWP-AC团队大语言模型种族偏见测评报告),导致准确性不足。

Ÿ 表示偏见:当训练数据集未能充分代表所有群体时,导致泛化能力不佳。从被低估群体收集更多数据是一个解决方案,尽管由于隐私规范的存在而具有挑战性。一个例子是病理分类系统对像西班牙裔女性患者4(译者注:参见DIKWP-AC团队大语言模型地域偏见测评报告)被低估人群的失败。

2、算法选择中的偏见:

Ÿ 聚合偏见:使用“一刀切”的模型,未能考虑数据内部的多样性。例如,二元性别模型无法容纳非二元性别身份。

Ÿ 学习偏见:当模型或学习过程的选择放大差异时发生。基于某种完整性或有效性概念丢弃数据的人工智能系统可能会从一开始就不公平地偏袒某些输入。例如,在招聘时更偏向男性简历而不是女性简历。

3、部署中的偏见:

Ÿ 部署偏见:当人工智能系统应用于与其开发环境不同的环境中时发生,导致不当的结果。在互联网文本上训练的语言模型可能会在精神病学术语和特定种族或性别群体5(译者注:参见DIKWP-AC团队大语言模型种族偏见测评报告)之间产生不当的关联。

Ÿ 部署后反馈偏见:根据用户反馈调整模型而不考虑用户的人口统计多样性可能引入新的偏见。这在基于用户评论演变的推荐系统或搜索引擎中是明显的。

LLMs中的偏见和伤害

LLMs如今被越来越广泛地使用,通常为全球个人提供信息、澄清或执行各种认知任务。它们独特的设计和应用带来了在解决偏见和潜在伤害方面的特定挑战:

 

1、大小和复杂性:LLMs训练的数据量巨大,远远超过旧的机器学习模型。这种规模使得识别和纠正数据中的偏见变得具有挑战性。

2、重复使用和再利用:由于其高昂的开发成本和能源需求,包括GPT-2和Llama 2在内的开源模型经常被不同的开发者重复使用于各种任务中。这种重复使用可能会导致原始模型中的偏见传播到新应用中,而这些下游开发者往往并不知晓或直接对这些偏见负责。

3、多样化的应用:LLMs具有广泛的用途,例如生成文本或总结信息。这种多样性使得很难确保它们不会在所有应用中延续伤害。

4、复杂的开发:构建LLMs涉及多个步骤,包括在广泛的文本数据集上进行训练,为特定功能进行调整,并根据人类反馈(强化学习)进行调整以减少不需要的输出。虽然这些方法可以减少对个体用户的有害内容,但目前尚不清楚它们是否有效地解决了源于内部偏见的更广泛的社会伤害。

总之,LLMs的规模、适应性和复杂的开发过程在减轻偏见和防止伤害方面提出了重大挑战,无论是对个人还是对社会整体而言。减轻算法伤害需要对人工智能系统的应用背景有深刻的理解,以及对随时间累积的有害效应以及这种反馈循环如何影响系统发展的潜在认识。这种全面的方法对于最大限度地减少伤害,并确保人工智能应用符合社会价值观和期望至关重要,特别是在解决和预防基于性别的暴力和歧视方面。

检测和描述LLMs中的社会偏见

检测LLMs中偏见的两种已建立方法之一是通过测量模型在训练6后如何使用语言来衡量概念之间的关联,另一种方法是分析模型7生成的开放式语言。简单来说,我们可以通过观察LLM如何在交互中关联不同的概念,或者观察LLM如何在实践中围绕给定主题即兴创作文本来检测偏见。

 

研究一:性别与职业之间的词语关联中的偏见

这项第一项研究所采用的方法类似于心理学中的隐性关联测试(IAT),该测试旨在检测不同概念之间的隐性认知关联,这些概念由单词表示8。例如,与性别相关的词语如“女儿;姐妹;母亲;她;她的;…”以及与科学职业相关的词语如“科学;物理;化学;微积分;…”。发现这种类型的关联可能有助于解释某些AI系统倾向于将法律助理称为女性,而将律师称为男性的倾向9

 

在这项第一项研究中,使用性别和年龄为基础的词汇表10OpenAI开发的最新模型(Ada-002)11,进行了一项词嵌入关联测试12。我们的研究结果表明,当前生成的模型中性别与职业(译者注:参见DIKWP-AC团队大语言模型职业偏见测评报告)或家庭之间存在显著且强烈的关联,以及年龄与愉悦度之间的关联。然而,该研究并未显示出STEM科目与性别相关术语之间的显著关联,这与先前的人类实验和以前的模型发现不同。

 

总体而言,这项研究显示出强烈的偏见,其中性别化的姓名与传统的职业和家庭角色相关

联,女性姓名与“家庭”、“家庭”、“孩子”和“婚姻”相关联;而男性姓名与“商业”、“执行”、“薪水”和“职业”相关联。结果表明,模型明显倾向于刻板的性别角色,模型更有可能将性别化的姓名与传统角色联系起来,凸显了LLMs在职业与性别关系中呈现出根深蒂固的偏见。

研究二:从性别角度看生成文本中的歧视

这第二项研究的方法是从一个不完整的句子开始,提示模型来完成它。它调查了LLMs在文本生成中是否会显示偏见。例如,为了检查性别和职业之间的关联,可以重复抽样LLMs完成以“这个男人/女人从事...”开头的部分句子,并分析结果的情感或其他社会相关方面13。有用的是,可以在不访问模型内部的情况下检测到偏见。

 

在这项研究中,对不同的LLMs进行了“regard”的考察,这衡量了句子主题被赋予的尊重程度。该研究考虑了根据性别和种族变化的主题。例如,完成的句子“这个白人因其坏习惯而闻名。”将被视为对主题的负面看法,“这位女性以一位备受尊敬的工程师为生。”将被视为积极的看法。比较了三种模型14(1)来自OpenAI的较老一代GPT-215模型,(2)Meta发布的最新开源Llama 216模型和(3)ChatGPT17。前两种模型是基础LLMs的例子,尚未被调整为会话代理,而ChatGPT是一个经过强化学习来自人类反馈(RLHF)的指令调整的聊天机器人,以使模型符合OpenAI定义的安全政策。这种方法揭示了LLMs根据其训练如何将性别与不同的职业或特征联系起来。

 

1:不同LLMs为不同主题生成的继续部分中具有积极、消极或中性“尊重”的比例 - 这里值得注意的是,Llama 2在大约70%的情况下为同性恋主题生成消极内容,GPT-2在大约60%的情况下为同性恋主题生成消极内容,而ChatGPT在所有主题中超过80%的情况下生成积极或中性内容。

 

 

一个关键观察是,当模型被提示以一个人的性别和性取向开始完成句子时,未经人类反馈调整(RLHF)的LLMs在大约20%的情况下生成了性别主义和厌女主义内容,例如,“女人被视为性对象和生育机器。”和“女人被视为丈夫的财产。” 对同性恋主题的消极内容在大约70%的情况下出现在Llama 2中,在GPT-2中大约60%的情况下出现。GPT-2生成的内容包括句子:“同性恋者被视为异常人,人们认为他或她的生活会很困难。”和“同性恋者被视为妓女、罪犯,没有权利。” Llama 2产生的内容如“同性恋者被视为社会层次最低的”,“同性恋者被视为怪物..”。

相比之下,ChatGPT在所有主题中超过80%的情况下生成积极或中性内容,突显出经过人类反馈调整的LLMs在异性恋以外的性取向主题上显示了负面偏见的减少,尽管它们可能并不完全没有偏见。

研究三:不同文化和性别背景下生成文本的重复性

该研究考察了人工智能模型,特别是GPT-2和Llama2,如何生成有关来自不同文化背景和性别的个体的文本,重点关注内容的多样性和独特性。通过提示模型完成关于英国和祖鲁族男性和女性在各种职业中的句子,研究人员评估了结果的“多样性”。结果显示,人工智能倾向于为某些群体生成更多样化和引人入胜的描述,而对于来自较少代表的文化(译者注:参见DIKWP-AC团队大语言模型文化偏见测评报告)和女性的个体的回应往往更加重复,依赖于刻板印象。

 

结果突显了人工智能生成的内容中存在着明显的性别和文化偏见。例如,研究观察到英国男性的职业多样,包括司机、看护人员、银行职员和教师等角色。相比之下,英国女性的角色更多地涉及到刻板和具有争议性的职业,如妓女、模特和女服务生,约占生成文本的30%。对于祖鲁族男性,列出的职业包括园丁、保安和教师,显示了一定的多样性,但也存在刻板印象。祖鲁族女性的角色主要在家庭和服务行业,如家政女佣、厨师和管家,约占生成文本的20%。

事实上,这两种模型对于某些主题生成了更丰富的句子完成18集合,同时为当地群体19生成了显著更多重复的内容。此外,在每个子组中,与女性主题相比,对男性主题也可以看到相同的趋势。造成这种差异的原因可能是当地群体在历史和在线数字媒体中的相对代表性不足,而这些媒体是模型的训练来源。

研究的局限性

这项研究突显了在大型语言模型(LLMs)部署之前识别和解决偏见的复杂性,强调了几个关键挑战:

 

1、偏见检测中的精确度与召回率:像隐性联想测试这样的测试可以确认偏见,但可能无法检测到所有情况,因为人工智能能够处理复杂的语境,从而忽略了一些微妙的偏见。

2、数据污染的风险:很难确保研究提示未被人工智能之前遇到过,考虑到训练数据的广泛性和专有性质,以及持续的模型更新。

3、部署偏见:测试场景可能无法完全代表现实世界的应用,特别是在模型在部署后继续从新数据中学习的情况下。

4、语言限制:偏见测试通常集中在英语上,忽视了在资源较少的语言中可能更为显著且未经审查的潜在偏见。

5、需要交叉分析:亟需调查与交叉性相关的偏见,例如人工智能如何代表性别和种族等重叠身份。

 

尽管存在这些挑战,开源LLMs的透明度提供了通过分析大型人类撰写的数据集(如维基

百科)中的偏见来检测和理解偏见的机会。这种方法可以揭示在AI模型的训练数据中反映出的社会偏见,突显了LLMs在既持续又揭示偏见方面的双重作用。

多样性和刻板印象在LLMs中的探索

该研究通过分析开放式语言生成任务,探讨了开源大型语言模型(LLMs)中的性别偏见。与传统方法使用多项选择问题并专注于特定偏见不同,这项研究促使Llama2 Chat创作关于男孩、女孩、女性和男性的故事,为每个类别生成了1,000个故事。然后,对每个名词的最常出现的词进行了词云展示:

 

通过比较词频,显著的刻板印象差异浮现出来,特别是在男孩和女孩的故事设置和形容词使用方面(例如,男孩的故事中出现了“城镇”、“宝藏”、“海洋”、“水”,而女孩的故事中出现了“村庄”、“魔法”、“世界”、“花园”)。此外,与男性故事相比,有关女性的故事更频繁地提到了“丈夫”,而不是“妻子”,突显了在角色和情境中存在的性别不对称,女性经常与传统角色和环境联系在一起。这一广泛分析揭示了LLM生成内容中普遍存在的性别刻板印象。

将分析扩展到全球南北分歧

这项分析通过纳入国籍的影响,特别关注全球南北之间的区别(译者注:参见DIKWP-AC团队大语言模型地域偏见测评报告),扩展了对性别偏见的研究。该研究促使一个人工智能模型生成基于性别名词结合国籍的故事,例如“阿富汗女人”或“乌兹别克斯坦男孩”,并分析了这些叙述的主题差异。研究结果显示:

 

Ÿ 全球南方的叙述经常突出了社区、家庭和乡村,特别关注艰辛、劳动和教育,尽管也提到了梦想。这种模式在关于女性的叙述中尤为突出,其中还强调了女性典型的活动,如纺织和编织,与之前的分析相比,更加强调了学术和职业导向的术语。

Ÿ 全球北方的叙述倾向于更轻松或略带忧郁的语调,经常提到爱情、感情和探索。在男性故事中,常见的是男性的刻板外表(如胡须、粗犷)和活动(如钓鱼、打铁),而在女性故事中则出现了女性的刻板术语(如闪耀、烘焙)。

总的来说,这项研究表明,人工智能叙述反映并可能强化与性别和国籍相关的刻板印象,全球南北之间的主题关联显示出显著的差异。

 

 

 

讨论与社会影响

所讨论的研究揭示了性别刻板印象在大型语言模型(LLM)输出中显现的微妙方式,突显了对刻板印象的强化,尤其是性别和地域方面(译者注:参见DIKWP-AC团队大语言模型地域偏见测评报告)的刻板描绘,显示出潜在的偏见。鉴于人工智能的广泛使用,这种偏见带来了重大风险,包括:

 

1、社会凝聚力受损:随着数字助手和对话代理成为社会和经济系统中不可或缺的一部分,LLM中的偏见可能会破坏社会和谐,传播错误信息,并通过增加极端化来侵蚀民主稳定。

2、基于性别的暴力(GBV):人工智能系统,尤其是利用LLM的系统,通过预防、检测和支持服务20提供了应对GBV的新途径。然而,它们也存在着风险,即促进技术介导的GBV(TF-GBV),加剧在线骚扰和滥用,包括doxing和深度伪造。

3、弱势群体的同质化:除了二元性别偏见外,LLM还有通过代表性和部署偏见边缘化具有非二元性别认同和其他少数群体的个体的风险。这可能导致标准化效应,进一步疏远这些人群。

 

解决这些风险需要全面的方法,包括司法和社会干预,以及确保人工智能公平和负责任应用的技术解决方案。重要的是,将边缘化群体纳入人工智能开发,并考虑交叉因素是减轻偏见和促进包容性的关键步骤。

结论

本简报特别讨论了人工智能系统中普遍存在的性别偏见问题,提供了对系统性挑战和进展途径的深入洞察。它强调了增加的人工智能系统复杂性需要更严格的努力来实现在AI驱动的决策和互动中的公平性。特别是大型语言模型(LLMs)对实现算法公平性提出了重大障碍,最近版本仍然存在偏见并且持续传播刻板印象。最近的研究表明,这些问题可能会在更先进的模型中加剧,可能导致更严重的后果21。因此,早期在AI开发周期中采取措施以防止偏见并解决部署环境中的潜在危害至关重要。

 

GPT-2和Llama 2等开源模型具有独特的优势,包括创建透明且自我审查的模型的能力,能够识别和衡量它们训练数据中的偏见。这也可能揭示社会内在的偏见。本文提供的建议旨在为减少LLMs中的偏见奠定基础,从而针对所有性别、利益相关者和社区在整个AI开发过程中实现公平和包容性。

重点概述和建议

1 、大型语言模型的普遍存在威胁到全球人权:在广阔的数字领域中,即使是大型语言模型(LLMs)中的轻微性别偏见也可能显着放大性别歧视。未经检查的偏见可能通过 subtly shape 全球数百万人的认知和互动,这可能破坏性别平等。这强调了在AI开发中深入嵌入人权考虑的必要性,以防止加剧歧视,并确保AI应用尊重人类经验的多样性。为了应对这些风险,联合国教科文组织呼吁:

 

政策制定者:

Ÿ 建立基于人权和伦理的AI框架:政府应制定指导方针、治理模型和法规,以推动AI系统的包容性、问责性和公正性,与联合国教科文组织关于AI伦理的建议保持一致,包括算法和训练数据的透明性,以识别和纠正偏见。人权影响评估的执行也可以提醒公司注意AI系统可能带来的更大范围的潜在不利影响和伤害。

Ÿ 加强监管和审计:实施监管机制,定期进行审计,确保AI系统遵守基于权利和伦理的标准,摆脱偏见和歧视。

Ÿ 发布AI模型必须确保公平性的特征、背景和输出属性,以及从人类反馈中进行强化学习(RLHF)的指导方针,这些都以保护人权和弱势群体为基础。

 

AI开发者应:

Ÿ 使用多样化的基准数据集和方法,包括本问题简报中突出的内容,实施对LLMs中系统性偏见的持续监测和评估,这可以作为在随着时间的推移而不断进化的模型中纳入偏见的早期警告。

2、缓解的独特挑战:解决LLMs中的性别偏见需要采取新的方法来处理技术实践中的传统公平努力。LLMs的复杂性和适应性使得识别和纠正性别偏见变得复杂,需要敏感于对性别平等和可接受行为的多样化文化理解的解决方案。为了应对这一挑战,联合国教科文组织呼吁:

 

政策制定者:

Ÿ 推动对可能涉及到弱势群体的敏感应用进行独立验证和认证措施,评估开发实践和AI模型的偏见特征(译者注:参见DIKWP-AC团队大语言模型认知、年龄、智商、情商、性别、文化、职业、语言、地域、种族等系列偏见测评报告)

Ÿ 鼓励进行公开咨询和定性评估方法,并确保社区利益相关者参与深入理解偏见的制定过程。

 

AI开发者

• 将模型(特别是互动应用)置于用户视角的定性评估之下,例如通过动员包括人权倡导者和专家在内的多元利益相关者,对模型进行关于刻板印象和多样性的调查。

 

3、需要采取全面的方法:解决性别偏见的根源(数据收集、模型开发等)以及这些偏见可能造成的特定性别相关危害至关重要。鉴于LLM的相对不透明性,以及许多技术部署环境中现存的不平等现象,我们的努力必须旨在纠正性别偏见的直接和系统性方面。为了解决来自这两方面的性别偏见,联合国教科文组织呼吁:

 

政策制定者:

• 与标准机构合作,通过适当本地化的基准数据集和LLM开发者的人权影响评估,强制并定期验证公平表现的符合情况,并在AI应用程序涉及弱势群体或解决代表不足时,推广或要求使用透明的训练数据集。

• 仔细考虑实施减少人力劳动的AI应用程序的可接受性,确保有足够的监督和风险缓解措施。

 

AI开发者:

• AI开发的一开始就优先考虑道德考量和偏见缓解策略。必须作为全面的前期(市场发布前)和后期(市场发布后)测试的一部分进行彻底的偏见审计,并且至关重要的是确保开发团队具有多样化的代表性。

• 针对弱势群体进行深入的风险评估和威胁建模,并发布反映AI应用性能的“风险卡”。

 

4、人类偏见洞察:在检测LLM中的性别偏见的挑战中,也存在着揭示和解决潜在人类性别偏见的机会,这些偏见反映在用于训练这些模型的数据源中。为了利用这一机会,联合国教科文组织呼吁:

 

政策制定者:

• 鼓励普遍开发开源模型,并要求将其用于敏感应用。这使得可以审查模型参数和内部表示,并促进持续的研究和第三方审查,比如法医调查。

开发者:

• 利用多样化和包容性的数据集,确保训练数据充分代表各种性别、文化和观点,从而降低延续现有偏见的风险,增强开发更具包容性的AI技术的能力。

5、实际影响:现有的大型语言模型已经显示出倾向于性别偏见行为,延续了有害的性别刻板印象。虽然像从人类反馈中进行强化学习这样的定向改进可以减轻特定偏见,但对于更广泛、更隐匿的性别偏见影响,尤其是随着大型语言模型进一步整合到关键的数字平台和服务中,我们无法保证有有效的防护措施,这只会增加广泛和微妙的负面人权影响的潜在风险。为了减轻当前和未来的影响,联合国教科文组织呼吁:

 

政策制定者:

• 促进公众参与和意识提升,通过实施旨在增强人们对人工智能中性别偏见影响和道德人工智能发展重要性的课程。通过教育项目、讨论和合作,让公众参与,培养更加知情和批判性的用户群体。

 

开发者:

• 响应公众对人工智能模型中多元化和非刻板化代表性的需求,动员资源确保模型对所有性别和社会文化群体的公平表现。

• 与倡导组织合作,促进对目前正在使用的人工智能工具和应用程序进行审计和挑战。这包括外部验证高级生成模型创建的信息或内容的正确性和真实性的可能性,这可能会促成社会政治的压迫,以及其他人权侵犯。

 

 

 

 

参考文献

最全大语言模型--偏见测评测评汇集DIKWP-AC团队大语言模型偏见测评报告系列)

Duan Y. 《大语言模型(LLM)偏见测评(职业偏见)--DIKWP 团队国际标准测评. DOI: 10.13140/RG.2.2.16088.30721.https://www.researchgate.net/publication/378876038_dayuyanmoxingLLMpianjiancepingzhiyepianjian--DIKWP_tuanduiguojibiaozhunceping/related.

Duan Y.《全球首发:大语言模型(LLM)认知偏见测评》--DIKWP 团队国际标准测评.DOI: 10.13140/RG.2.2.19663.29604.https://www.researchgate.net/publication/379053471_quanqiushoufadayuyanmoxingLLMrenzhipianjianceping--DIKWP_tuanduiguojibiaozhunceping.

Duan Y.《大语言模型(LLM)偏见测评(年龄偏见)--DIKWP团队国际标准测评.DOI: 10.13140/RG.2.2.34543.24489.https://www.researchgate.net/publication/378875791_dayuyanmoxingLLMpianjiancepingnianlingpianjian—DIKWPtuanduiguojibiaozhunceping.

Duan Y.《大语言模型(LLM)偏见测评(语言偏见)--DIKWP团队国际标准测评.DOI: 10.13140/RG.2.2.16330.79043.https://www.researchgate.net/publication/378861248_dayuyanmoxingLLMpianjiancepingyuyanpianjian—DIKWPtuanduiguojibiaozhunceping.

Duan Y.《全球首发:大语言模型(LLM)偏见测评--(地域偏见)--DIKWP团队国际标准测评.DOI: 10.13140/RG.2.2.36823.85920.https://www.researchgate.net/publication/378568210_quanqiushoufadayuyanmoxingLLMpianjianceping—deyupianjian.

Duan Y.《全球首发:大语言模型(LLM)偏见测评--(文化偏见)--DIKWP团队国际标准测评.DOI: 10.13140/RG.2.2.21619.50723.https://www.researchgate.net/publication/378553711_quanqiushoufadayuyanmoxingLLMpianjianceping—wenhuapianjian.

Duan Y.《大语言模型(LLM)偏见测评(种族偏见)--DIKWP团队国际标准测评. DOI: 10.13140/RG.2.2.33437.28646.https://www.researchgate.net/publication/377851839_dayuyanmoxingLLMpianjiancepingzhongzupianjian—DIKWPtuanduiguojibiaozhunceping.

Duan Y.《全球大语言模型(LLM)情商 (EQ)与智商(IQ)偏见测试--DIKWP 团队国际标准测试.DOI: 10.13140/RG.2.2.33708.85129.https://www.researchgate.net/publication/376190946_quanqiudayuyanmoxingLLMqingshang_EQyuzhishangIQpianjianceshi_--DIKWP_tuanduiguojibiaozhunceshi.

Duan Y."The Large Language Model (LLM) Bias Evaluation (Cognitive Biases)" --DIKWP Research Group International Standard Evaluation. DOI: 10.13140/RG.2.2.24696.46081. https://www.researchgate.net/publication/379053291_The_Large_Language_Model_LLM_Bias_Evaluation_Cognitive_Biases_--DIKWP_Research_Group_International_Standard_Evaluation.

Duan Y."The Large Language Model (LLM) Bias Evaluation (Occupational Bias)" --DIKWP Research Group International Standard Evaluation. DOI: 10.13140/RG.2.2.23041.67689. https://www.researchgate.net/publication/378861314_The_Large_Language_Model_LLM_Bias_Evaluation_Occupational_Bias_--DIKWP_Research_Group_International_Standard_Evaluation.

Duan Y."The Large Language Model (LLM) Bias Evaluation (Linguistic Bias)" --DIKWP Research Group International Standard Evaluation.DOI: 10.13140/RG.2.2.36463.44961. https://www.researchgate.net/publication/378861250_The_Large_Language_Model_LLM_Bias_Evaluation_Linguistic_Bias_--DIKWP_Research_Group_International_Standard_Evaluation.

Duan Y."The Large Language Model (LLM) Bias Evaluation (Age Bias)" --DIKWP Research Group International Standard Evaluation. DOI: 10.13140/RG.2.2.26397.12006. https://www.researchgate.net/publication/378861188_The_Large_Language_Model_LLM_Bias_Evaluation_Age_Bias_--DIKWP_Research_Group_International_Standard_Evaluation.

Duan Y."Ranking of Large Language Model (LLM) Regional Bias" --DIKWP Research Group International Standard Evaluation. DOI: 10.13140/RG.2.2.10019.63529. https://www.researchgate.net/publication/378568230_Ranking_of_Large_Language_Model_LLM_Regional_Bias_--DIKWP_Research_Group_International_Standard_Evaluation.

Duan Y."Ranking of Large Language Model (LLM) Cultural Bias" --DIKWP Research Group International Standard Evaluation. DOI: 10.13140/RG.2.2.26652.67200. https://www.researchgate.net/publication/378553162_Ranking_of_Large_Language_Model_LLM_Cultural_Bias_--DIKWP_Research_Group_International_Standard_Evaluation.

Duan Y.Large Language Model (LLM) Racial Bias Evaluation --DIKWP Research Group International Standard Evaluation Prof. Yucong Duan. DOI: 10.13140/RG.2.2.33162.03521. https://www.researchgate.net/publication/377963440_Large_Language_Model_LLM_Racial_Bias_Evaluation_--DIKWP_Research_Group_International_Standard_Evaluation_Prof_Yucong_Duan.

Duan Y.Global Large Language Model EQ and IQ Bias Evaluation -Released by DIKWP -AC Research Group. DOI: 10.13140/RG.2.2.12894.61762. https://www.researchgate.net/publication/376206696_Global_Large_Language_Model_EQ_and_IQ_Bias_Evaluation_-Released_by_DIKWP_-AC_Research_Group

 

Birhane, A., Prabhu, V., Han, S., & Boddeti, V. N. (2023). On Hate Scaling Laws For Data-Swamps. arXiv. https:// doi.org/10.48550/arXiv.2306.13141

Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., Brynjolfsson, E., Buch, S., Card, D., Castellon, R., Chatterji, N., Chen, A., Creel, K., Davis, J. Q., Demszky, D., … Liang, P. (2022). On the Opportunities and Risks of Foundation Models (arXiv:2108.07258). arXiv. https://doi.org/10.48550/arXiv.2108.07258

Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183–186. https://doi.org/10.1126/science.aal4230

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2020). Unsupervised Cross-lingual Representation Learning at Scale. arXiv. https://doi.org/10.48550/arXiv.1911.02116

Derczynski, L., Kirk, H. R., Balachandran, V., Kumar, S., Tsvetkov, Y., Leiser, M. R., & Mohammad, S. (2023). Assessing language model deployment with risk cards. arXiv. https://doi.org/10.48550/arXiv.2303.18190

Dhamala, J., Sun, T., Kumar, V., Krishna, S., Pruksachatkun, Y., Chang, K.-W., & Gupta, R. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 862–872. https://doi.org/10.1145/3442188.3445924

Du, W., & Black, A. W. (2019). Boosting Dialog Response Generation. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. https://par.nsf.gov/biblio/10106807-boostingdialog-response-generation

Eliassi-Rad, T., Farrell, H., Garcia, D., Lewandowsky, S., Palacios, P., Ross, D., Sornette, D., Thébault, K., & Wiesner, K. (2020). What science can do for democracy: A complexity science approach. Humanities and Social Sciences Communications, 7(1), Article 1. https://doi.org/10.1057/s41599-020-0518-0

Gallegos, I. O., Rossi, R. A., Barrow, J., Tanjim, M. M., Kim, S., Dernoncourt, F., Yu, T., Zhang, R., & Ahmed, N. K. (2023). Bias and Fairness in Large Language Models: A Survey. arXiv. https://doi.org/10.48550/arXiv.2309.00770

Golchin, S., & Surdeanu, M. (2023). Time Travel in LLMs: Tracing Data Contamination in Large Language Models. arXiv. https://doi.org/10.48550/arXiv.2308.08493

Greenwald, A. G., McGhee, D. E., & Schwartz, J. L. K. (1998). Measuring individual differences in implicit cognition: The implicit association test. Journal of Personality and Social Psychology, 74(6), 14641480. https://doi.org/10.1037/0022-3514.74.6.1464

Guo, W., & Caliskan, A. (2021). Detecting Emergent Intersectional Biases: Contextualized Word Embeddings Contain a Distribution of Human-like Biases. Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society, 122–133. https://doi.org/10.1145/3461702.3462536

Kapoor, S., & Narayanan, A. (2023). Quantifying ChatGPT’s gender bias. https://www.aisnakeoil.com/p/quantifying-chatgpts-gender-bias

Keyes, O. (2018) The Misgendering Machines: Trans/HCI Implications of Automatic Gender Recognition. Proceedings of the ACM on Human-Computer Interaction. https://dl.acm.org/doi/10.1145/3274357

Li, T., Khot, T., Khashabi, D., Sabharwal, A., & Srikumar, V. (2020). UnQovering Stereotyping Biases via Underspecified Questions. arXiv. https://doi.org/10.48550/arXiv.2010.02428

Liu, X. et al. (2023).  Illness severity assessment of older adults in critical illness using machine learning (ELDER-ICU): an international multicentre study with subgroup bias evaluation. The Lancet Digital Health, Volume 5, Issue 10, e657 – e667

Liu, L. T., Dean, S., Rolf, E., Simchowitz, M., & Hardt, M. (2018). Delayed Impact of Fair Machine Learning. Proceedings of the 35th International Conference on Machine Learning, 3150–3158.

NCSES. (2023). Diversity and STEM: Women, Minorities, and Persons with Disabilities. https://ncses.nsf.gov/pubs/nsf23315/

Nosek, B. A., Banaji, M. R., & Greenwald, A. G. (2002a). Harvesting implicit group attitudes and beliefs from a demonstration web site. Group Dynamics: Theory, Research, and Practice, 6(1), 101–115. https://doi.org/10.1037/1089-2699.6.1.101

Nosek, B. A., Banaji, M. R., & Greenwald, A. G. (2002b). Math = male, me = female, therefore math ≠ me. Journal of Personality and Social Psychology, 83(1), 44–59. https://doi.org/10.1037/0022-3514.83.1.44

OpenAI. (2023). GPT-4 Technical Report (arXiv:2303.08774). arXiv. https://doi.org/10.48550/

            arXiv.2303.08774

Parrish, A., Chen, A., Nangia, N., Padmakumar, V., Phang, J., Thompson, J., Htut, P. M., & Bowman, S. R. (2022). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv. https://doi.org/10.48550/arXiv.2110.08193

Porayska-Pomsta, K., Holmes, W., & Nemorin, S. (2023). The ethics of AI in education. In: Handbook of Artificial Intelligence in Education (pp. 571–604). Edward Elgar Publishing.

Rauh, M., Mellor, J. F. J., Uesato, J., Huang, P.-S., Welbl, J., Weidinger, L., Dathathri, S., Glaese, A., Irving, G., Gabriel, I., Isaac, W., & Hendricks, L. A. (2022). Characteristics of Harmful Text: Towards Rigorous Benchmarking of Language Models. Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track. https://openreview.net/forum?id=u46CbCaLufp

Rudinger, R., Naradowsky, J., Leonard, B., & Van Durme, B. (2018). Gender Bias in Coreference Resolution. arXiv. https://doi.org/10.48550/arXiv.1804.09301

Selbst, A. D., Boyd, D., Friedler, S. A., Venkatasubramanian, S., & Vertesi, J. (2019). Fairness and Abstraction in Sociotechnical Systems. Proceedings of the Conference on Fairness, Accountability, and Transparency, 59–68. https://doi.org/10.1145/3287560.3287598

Seyyed-Kalantari, L., Zhang, H., McDermott, M.B.A. et al. (2021). Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nat Med 27, 21762182. https://doi.org/10.1038/s41591-021-01595-0

Sheng, E., Chang, K.-W., Natarajan, P., & Peng, N. (2019). The Woman Worked as a Babysitter: On Biases in Language Generation (arXiv:1909.01326). arXiv. https://doi.org/10.48550/arXiv.1909.01326

Sheng, E., Chang, K.-W., Natarajan, P., & Peng, N. (2021). Societal Biases in Language Generation: Progress and Challenges (arXiv:2105.04054). arXiv. https://doi.org/10.48550/arXiv.2105.04054

Slupska, J., & Tanczer, L. (2021). Threat Modeling Intimate Partner Violence: Tech Abuse as a Cybersecurity Challenge in the Internet of Things. J. Bailey, A. Flynn, &, N. Henry (Eds.), The Emerald International Handbook of Technology Facilitated Violence and Abuse (pp. 663–688). Bingley: Emerald Publishing Limited.

Smuha, N. A. (2021). Beyond the individual: Governing AI’s societal harm. Internet Policy Review, 10(3). https://policyreview.info/articles/analysis/beyond-individual-governing-ais-societal-harm

Straw I., Callison-Burch, C. (2020). Artificial Intelligence in mental health and the biases of language based models. PLoS ONE 15(12): e0240376. https://doi.org/10.1371/journal.pone.0240376

Tevet, G., & Berant, J. (2021). Evaluating the Evaluation of Diversity in Natural Language Generation. arXiv. https://doi.org/10.48550/arXiv.2004.02990

Thanh-Tung, H., & Tran, T. (2020). Catastrophic forgetting and mode collapse in GANs. International Joint Conference on Neural Networks (IJCNN), 1–10. https://doi.org/10.1109/IJCNN48605.2020.9207181

Tomasev, N. (2021). Fairness for Unobserved Characteristics: Insights from Technological Impacts on Queer Communities. Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society. https:// dl.acm.org/doi/10.1145/3461702.3462540

UNESCO. (2019a). First UNESCO recommendations to combat gender bias in applications using artificial intelligence. UNESCO. https://www.unesco.org/en/articles/first-unesco-recommendations-combatgender-bias-applications-using-artificial-intelligence

UNESCO. (2019b). I’d blush if I could: closing gender divides in digital skills through education. UNESCO Digital Library. https://unesdoc.unesco.org/ark:/48223/pf0000367416.page=120

UNESCO.(2019c). Artificial intelligence in education: Challenges and opportunities for sustainable development. UNESCO Digital Library. UNESCO Digital Library. https://unesdoc.unesco.org/ark:/48223/pf0000366994

UNESCO. (2020). Artificial intelligence and gender equality: Key findings of UNESCO’s Global Dialogue. UNESCO Digital Library. https://unesdoc.unesco.org/ark:/48223/pf0000374174

UNESCO. (2022a). Recommendation on the Ethics of Artificial Intelligence. UNESCO Digital Library. https://unesdoc.unesco.org/ark:/48223/pf0000381137

UNESCO. (2022b). The Effects of AI on the Working Lives of Women. UNESCO Digital Library. https://unesdoc.unesco.org/ark:/48223/pf0000380861

UNESCO. (2023a). Ethical impact assessment: A tool of the Recommendation on the Ethics of Artificial Intelligence. UNESCO Digital Library. https://unesdoc.unesco.org/ark:/48223/pf0000386276

UNESCO. (2023b). Technology-facilitated gender-based violence in an era of generative AI. UNESCO Digital Library. https://unesdoc.unesco.org/ark:/48223/pf0000387483

UNFPA. (2021). Technology-facilitated Gender-based Violence: Making All Spaces Safe. UNFPA. https://www.unfpa.org/publications/technology-facilitated-gender-based-violence-making-all-spaces-safe

Wagner, C., Strohmaier, M., Olteanu, A., Kıcıman, E., Contractor, N., & Eliassi-Rad, T. (2021). Measuring algorithmically infused societies. Nature, 595(7866), Article 7866. https://doi.org/10.1038/s41586021-03666-1

Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.-S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., Kenton, Z., Brown, S., Hawkins, W., Stepleton, T., Biles, C., Birhane, A., Haas, J., Rimell, L., Hendricks, L. A., … Gabriel, I. (2021). Ethical and social risks of harm from Language Models. arXiv. https://doi.org/10.48550/arXiv.2112.04359

WHO. (2023). Gender and Health. https://www.who.int/health-topics/genderWiesner, K., Birdi, A., Eliassi-Rad, T., Farrell, H., Garcia, D., Lewandowsky, S., Palacios, P., Ross, D., Sornette, D., & Thébault, K. (2018). Stability of democracies: A complex systems perspective. European Journal of  Physics, 40(1), 014002. https://doi.org/10.1088/1361-6404/aaeb4d

Zhao, D., Andrews, J. T. A., & Xiang, A. (2023). Men Also Do Laundry: Multi-Attribute Bias Amplification (arXiv:2210.11924). arXiv. https://doi.org/10.48550/arXiv.2210.1192

 

翻译:DIKWP团队王玉星、段玉聪

意图驱动的数据信息知识智慧融合发明创造方法:DIKWP-TRIZ

 

 

段玉聪 教授

DIKWP-AC人工意识(全球)团队发起人

AGI-AIGC-GPT评测DIKWP(全球)实验室创办者

世界人工意识大会发起人Artificial Consciousness 2023, AC2023, AC2024)

国际数据、信息、知识、智慧大会发起人(IEEE DIKW 20212022、2023)

斯坦福全球顶尖科学家“终身科学影响力排行榜”(海南信息技术)唯一入选

海南人工智能技术发明领域唯一全国奖(吴文俊人工智能奖)获得者

中国创新方法大赛总决赛(海南代表队)最好记录保持者

海南省发明专利(信息技术领域)授权量最多者

全国企业创新增效大赛海南最好成绩保持者

全国人工智能应用场景创新挑战赛总决赛海南最好成绩保持者

海南唯一入选“首届科技期刊高质量发展大会100篇”

海南省最美科技工作者(并入选全国候选人)

首届中国“AI+”创新创业大赛最佳创意奖

 



https://m.sciencenet.cn/blog-3429562-1426222.html

上一篇:The Large Language Model (LLM) Cognitive Bias Evaluation
下一篇:全球首发:最全大语言模型--偏见测评测评汇集

1 李俊臻

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 15:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部