六个方法,为AI注入人类价值

来源 | 《财经》杂志 雅各布·艾伯内西(Jacob Abernethy) 弗朗索瓦·坎德伦(François Candelon) 西奥多罗斯·叶夫根尼乌(Theodoros Evgeniou) 阿比谢克·古普塔(Abhishek Gupta) 伊夫·洛斯坦伦(Yves Lostanlen) | 文 飞书、Pi | 译校 程明霞 | 编辑  

2024年12月06日 13:49  

曾经,速度和效率是最高优先级。现在,安全和隐私等问题同等重要。

2023年3月推出GPT-4的时候,OpenAI号称它比其令人惊艳的前身更加优异,称新版本在准确性、推理能力和测试分数方面表现更好——所有这些都是之前常用的AI性能指标。然而,最引人注目的是,OpenAI将GPT-4描述为“更加一致”(more aligned)——这或许是AI产品或服务首次以“与人类价值观一致”而营销。

技术应该服从道德护栏的观点并不新鲜。控制论之父诺伯特·维纳(Norbert Wiener)早在1960年一篇发表于《科学》杂志的开创性文章中就提出了类似想法,从而启动了一个专注于确保自动化工具融入其创造者价值观的完整学科。但直到半个多世纪后的今天,我们才看到AI嵌入式产品在营销时,会依据它们体现的安全、尊严、公平、精英主义、无害和有用等价值观的程度,以及传统的性能衡量标准(如速度、可扩展性和准确性)。这些产品包括了一切,从自动驾驶汽车到安全解决方案,做文章摘要的软件,可能收集人们日常生活数据的智能家电,甚至老年人的陪伴机器人和儿童的智能玩具。

随着AI价值与人类价值的一致性不仅仅是监管要求,而成为产品差异化的因素,公司需要调整AI产品和服务的开发流程。本文旨在明确企业家和高管在将安全和与人类价值观一致的AI产品推向市场时面临的挑战。及早采取行动应对这些挑战的公司将获得重要的竞争优势。

这些挑战分为六类,对应于典型创新过程的关键阶段。对于每个类别,我们提供了高管可以借鉴的框架、实践和工具。这些建议来自我们对AI产品价值对齐方法的联合和独立研究,以及我们帮助企业在多个领域开发和部署AI产品和服务的经验,包括社交媒体、医疗保健、金融和娱乐业。

 

1. 为你的AI产品定义价值观

第一项任务是确定那些必须将其价值观考虑在内的人。鉴于AI对社会的潜在影响,公司需要考虑到比评估其他产品功能时更多样化的利益相关者群体。他们可能不仅包括员工和客户,还包括民间社会组织、政策制定者、社会活动家、行业协会和其他人。当产品所在市场涵盖不同文化或法规的地缘因素时,情况可能会变得更复杂。必须了解所有这些利益相关者的偏好,并弥合他们之间的分歧。

这方面的挑战可以通过两种方式来应对。

嵌入既定原则。按照这种方法,公司直接借鉴已有的道德体系和理念的价值观,如实用主义,或遵照由国际机构开发的价值观,比如OECD发布的AI原则。例如,由谷歌(现Alphabet)资助的AI创业公司Anthropic将其AI产品Claude的原则建立在联合国《世界人权宣言》的基础上。其他公司也有类似行动;例如,宝马的原则类似于OECD的原则。

阐明你自己的价值观。一些公司组建了一支专家团队——技术专家、伦理学家、人权专家等等——来建立自己的价值观。这些人可能对使用某种技术所固有的风险(和机遇)有很好的理解。Salesforce公司就采取了这种方法。在其原则声明的序言中,该公司将这一过程描述为“从公司各个部门的个人贡献者、经理和高管那里征求反馈的长达一年的旅程,包括工程部、产品开发部、用户体验部、数据科学部、法务部、平等事务部、政府事务部和营销部”。

另一种方法是由DeepMind的科学家团队开发的。DeepMind是一家AI研究实验公司,2014年被谷歌收购。这种方法包括向客户、员工等人咨询,以最小化自我利益偏见的方式激发出公司的AI原则和价值观。它是基于“无知之幕”(veil of ignorance)——由哲学家约翰·罗尔斯(John Rawls)构思的一个思想实验,人们在不知道自己在社区中的相应位置的情况下提出社区规则——这意味着他们不知道规则将如何影响他们。使用这种方法产生的价值相比其他方法而言不会那么自我利益驱动,而是更关注AI如何帮助最弱势的群体,并且更加稳健,这样人们通常更容易接受它们。

 

2. 将价值观写进程序

除了建立指导价值观,公司还需要考虑明确限制AI产品的行为。隐私设计、安全设计等实践在这方面非常有用。这些实践以原则和评估工具为基础,将目标价值嵌入组织的文化和产品开发过程中。应用这些实践的公司员工有动力在设计新产品的早期,仔细评估和减轻潜在风险;建立客户可以用来报告问题的反馈循环;并不断评估和分析这些报告。在线平台通常使用这种方法来加强信任和安全,一些监管机构也对此持开放态度。这种方法的主要支持者之一是澳大利亚网络安全专员朱莉·英曼·格兰特(Julie Inman Grant),她是该行业公共政策的资深人士。

生成式AI系统需要在程序中写入正式的道德护栏,以便它们不会违反定义的价值观或越过红线(Red lines),例如,同意不当请求或生成不可接受的内容。包括英伟达和OpenAI在内的公司正在开发框架来提供这种护栏。例如,GPT-4被营销为比GPT-3.5更不可能响应不允许内容的请求,如仇恨言论或恶意软件代码。

红线也是由不断演变的法规所定义的。作为回应,公司需要更新其AI产品的合规性,这会在不同市场之间日益分化。以一家欧洲银行为例,该银行希望推出一款生成式AI工具来改善客户互动。直到最近,该银行只需要遵守欧盟的数据保护法(EU’s General Data Protection Regulation),但很快它也需要遵守欧盟的AI法案(EU’s AI Act)。如果它想在中国或美国部署AI,它将不得不遵守那里的法规。随着当地规则的变化,以及银行成为跨司法管辖区监管的对象,它还需要调整其AI产品策略并管理潜在的不兼容要求。

价值观、红线、道德护栏和法规都应该整合并嵌入AI产品的编程之中,以便,例如法规的变更可以被键入并自动传达给受其影响的AI程序的每个部分。

接下来是识别价值观的合规性并跟踪其进展。例如,社交媒体和在线购物平台历来专注于开发最大化用户参与的推荐算法。但随着用户和监管机构对信任和安全的担忧增加,Facebook(现Meta)和Snapchat等社交媒体不仅跟踪用户在平台上花费的时间,还跟踪用户在哪里看到什么和做什么,以限制用户滥用极端主义或恐怖主义材料的传播。在线游戏公司跟踪玩家的行为,因为攻击行为可能对其游戏和社区的吸引力产生负面影响。

 

3. 权衡取舍

近年来,我们看到公司在努力平衡隐私与安全、信任与安全、提供帮助的同时尊重他人的自主权,当然,还有短期财务指标的价值观。例如,提供老年人辅助或儿童教育产品的公司不仅要考虑安全,还要考虑尊严和代理程度:什么时候AI产品不应该帮助老年用户,以便增强他们的信心、照顾他们的尊严?什么时候应该帮助儿童确保他们积极的学习体验?

应对这种挑战的一个方法是根据其价值观对市场进行细分。例如,一家公司可能决定专注于一个更重视隐私等原则而不是算法准确性的较小市场。这就是搜索引擎公司DuckDuckGo选择的路径,它限制定向广告并优先考虑隐私。该公司定位自己是为不想被在线跟踪的互联网用户提供的替代品。

上市时间和价值观错位之间的风险权衡尤其难以管理。一些评论认为,OpenAI是为了抓住先发优势,在2022年11月匆忙将ChatGPT推向市场,尽管当时存在风险。这样的举动可能适得其反:谷歌在巴黎的一次产品发布会上,巴德(Bard)聊天机器人犯了一个公开错误,让谷歌损失近1700亿美元。尽管所有聊天机器人都倾向于犯类似的错误,但后来的内部报告表明,可能是谷歌推动产品快速发布导致了早期的产品缺陷。

鉴于这类挑战,管理者被迫做出非常微妙的判断。例如,他们如何决定AI生成或推荐的某些内容是否有害?如果自动驾驶汽车差点撞到行人,那到底是安全故障,还是车辆安全系统有效的迹象?在这种情况下,公司需要尽早与利益相关者建立清晰的沟通流程和渠道,以确保持续的反馈、价值观对齐和学习。

这种情况下公司可以做什么,有一个很好的例子,是由Meta提供的,虽然它不是专门关注AI产品。2020年,随着公众对在线平台如何处理内容的日益关注,Meta成立了监督委员会,以帮助公司做出价值观驱动的决策。该委员会是由来自不同国家和背景的独立、经验丰富的人组成的,他们不仅会做出一些艰难的决定,还帮助公司听取不同利益相关者的意见。

制药巨头默克(Merck)和法国电信公司Orange等公司,现在也在组建监督董事会或监管委员会来审查他们的AI应用。在某些情况下,可能有必要建立正式的AI政策团队来监督和更新AI行为的原则、政策和价值观相关指标。(关于这些委员会可能面临的一些困难,参见文末相关文章。)

 

4. 与合作伙伴对齐价值观

萨姆·奥特曼作为OpenAI的CEO,在播客《在好公司》(In Good Company)中分享了他们的挑战:公司应该给不同文化和价值体系的人多大的灵活性来定制OpenAI的产品?他指的是一种趋势,即公司采用预训练模型,如GPT-4、PaLM、LaMDA和稳定扩散,并对其进行微调以构建自己的产品。(注:PaLM与LaMDA均为大语言模型)

正如奥特曼指出的那样,问题在于基础模型的所有者对其产品的处理几乎没有控制权。调整模型的公司也有类似的问题:他们如何确保使用第三方模型创建的新产品,与期望的价值观保持一致——特别是考虑到他们可以微调的程度的限制?只有原始模型的开发人员知道在训练它们时使用了哪些数据,因此公司需要仔细选择他们的AI合作伙伴。他们还必须与其他合作伙伴保持一致,例如训练数据的提供者,这些合作伙伴可能持有各种不良偏见,从而影响最终产品。

为了解决这些问题,AI开发者可能需要建立评估外部AI模型和数据的程序,并在启动新的伙伴关系之前挖掘潜在伙伴的价值观和基本技术系统。(这可能类似于企业在管理可持续发展方面潜在伙伴风险的方式,以及衡量和管理范围三的碳排放做法。)

这不是一个一次性的游戏。随着强大基础模型之间的竞争展开,公司可能会随着时间的推移改变他们用于产品的模型。他们会发现,AI测试能力和围绕价值观的有效尽职调查很可能是公司竞争优势的来源。

 

5. 确保人类的反馈

给AI产品注入价值观需要大量数据——如前所述,其中大部分将由人类生成或标记。在大多数情况下,它分为两个数据流:用于训练AI的数据,和对用户行为的持续反馈的数据。为了确保价值观的一致性,必须建立新的反馈流程。

一种常见做法被称为“从人类反馈中强化学习”(RLHF),这是一个过程,通过输入人类的反馈,可以最小化不良输出,如辱骂性语言。人类审查AI系统的输出,例如对某人简历的分类、执行导航动作的决定或生成内容,并根据其与某些价值观不对齐的程度对其进行评级。该评级用于新的训练数据中,以改善AI产品的行为。当然,这种方法中的一个关键决定是,谁应该提供反馈以及如何提供。强化学习可能发生在AI生命周期的各个阶段,包括产品推出之前和之后。在早期阶段,工程师可以在测试AI产品的输出时提供反馈。另一种做法是创建“红队”(red teams),其任务是逼迫出AI的不良行为。“红队”广泛用于其他领域,例如网络安全。他们充当对手,攻击系统以探索它是否以及如何可能失败。尽管这些团队通常是组织内部的,但外部社区也可以被使用。例如,2023年,数千名黑客在全球最大的网络安全会议Def Con上聚集,以“攻击”大语言模型并识别漏洞。

产品发布之后,还需要继续教AI按照某些价值观行事。AI在这方面就像人类:无论接受了何种正规教育,我们都会根据反馈不断调整自己的行为,以符合所在社区的价值观。当人们使用AI或受其影响时,他们可能会观察到似乎违反其营销价值观的行为。允许他们提供反馈可以成为改善AI行为的重要数据来源。

在线平台提供了如何设置客户反馈流程的示例。例如,社交媒体和在线游戏公司允许用户通过点击按钮来报告潜在的可疑行为或内容,无论是由其他用户发布的,还是算法推荐或生成的。内容审核员遵循详细的指南,审查这些报告,决定是否从平台上删除内容,并提供决策的原因。这样做,他们有效地扮演了“数据注释者”的角色,将数据标记为违反给定价值观或服务条款。他们的标签用于进一步改进公司的政策和算法。

数据注释者的偏见和不一致性也需要被管理。在线平台已经建立了内容审核和质量管理流程,以及升级协议,以便在难以确定某些内容或行为是否违反指南时使用。在建立人工反馈系统和实践方面,公司应确保培训和强化学习数据代表不同的观点和文化。此外,员工和客户应了解他们的输入和反馈是如何被使用的,以及如何做出注释决策。例如,欧盟的数字服务法和其他法规要求在线平台提供透明度的年度报告,说明其内容审核决策。

最后,如果AI行为和数据包含潜在的有害内容——这可能是生成式AI的一个特殊风险——需要考虑对评论该内容的审核员的任何心理影响。2021年,Meta支付8500万美元解决了一起集体诉讼,该诉讼源于将内容审核员工暴露在图形和暴力图像中对其造成的心理伤害。

 

6. 准备好迎接意外

AI程序出现了越来越多意想不到的行为。例如,据报道,美国空军最近在一次实验中使用的AI模拟工具,建议杀死飞行员,以确保飞行任务得到恰当执行。另一个例子是AlphaGo发明的围棋程序Go的最新举动,被围棋高手们认为是“超人的和出乎意料的”。也许最著名的例子要属微软的必应(Bing)聊天机器人,它在推出后不久就开始对用户表现出攻击性甚至威胁行为,直到微软大幅缩短了可能的对话长度后才停止。同样不可预见的体验将大幅增加,特别是因为Chat GPT和其他大型AI模型现在可以执行它们没有明确编程的任务——例如翻译任何训练数据中不包括的语言。

一些不可预测的行为可能是由用户与AI产品的互动引起的,无论是有意还是无意。这些产品可能允许个人和公司进行极端的版本更新和超级个人化,这些个人和公司利用来自不同市场的数据微调模型。通过这种方式,可以根据每个用户与AI产品的交互方式创建和定制无数版本。确保所有这些版本保持一致,并且不出现新的行为,会很有挑战性。

尽管像强有力的测试和红队这样的最佳实践可以减少这种风险,但可能无法保证AI产品一旦推出就不会表现出意外行为。类似的情况在制药业已存在多年。无论在临床试验上花费多少资源,每年都会有几种批准的药物从市场上撤下,因为它们产生了在推出前未被识别的副作用。这就是为什么存在“药物警戒”(pharmacovigilance),即医生和患者以标准化的方式向监管机构或制药商传达药物的任何副作用;对这些报告进行统计分析;最终,如果必要,药物将被从市场上撤下。

类似地,公司必须实施强大的流程来检测和改善AI产品发布后的有害或意外行为。事件必须被识别,由用户或任何其他受影响的人报告,并由公司进行分析。公司可能需要建立AI事件数据库,就像OECD和合作伙伴开发的AI数据库一样,以便不断学习和记录他们的AI产品是如何发展的。

AI自身也可以促进其在使用过程中对产品的监控。例如,公司可以让一个AI模型用对抗性学习挑战另一个。这种方法类似于部署前测试和红队,但这些方法难以扩展,不适用于在使用过程中更新的AI模型,而对抗性学习允许对AI模型的任意版本进行持续测试。

最近,用于分布外(OOD,out-of-distribution)检测的工具已经被用来帮助AI处理以前从未遇到过的事情,比如自动驾驶汽车或电器不熟悉的物体。下棋机器人因为把孩子的手误认为棋子而抓住了孩子的手,对于可能产生的结果,这是一个经典例子。从本质上讲,OOD工具所做的是,使AI能够识别环境中的新变量或变化,帮助它“知道它不知道什么”,并在它没有接受过处理训练的情况下避免行动。

基于自然语言的工具可以让用户与AI产品进行直接对话:当用户体验到与预期行为模式的偏差时,他们可以用自己的语言向AI传达他们的需求、意图和反馈。这些工具允许公司采取共同参与的方法来确保他们的产品与核心价值观保持一致。

 

在一个AI价值观一致性可能决定竞争结果甚至成为产品质量要求的世界里,认识到产品差异化的风险和机遇,拥抱新的AI产品实践和流程以保持领先地位至关重要。客户与更广大的社会,都期望公司按照某些价值观来运营。在这个新世界中,他们绝不能推出行为不端的AI产品和服务。

 

雅各布·艾伯内西是佐治亚理工学院的副教授,也是水质分析检测公司BlueConduit的联合创始人。弗朗索瓦·坎德伦是波士顿咨询公司的董事总经理和高级合伙人,也是BCG亨德森研究所的全球总监。西奥多罗斯·叶夫根尼乌是欧洲工商管理学院的教授,也是信托和安全公司Tremau的联合创始人。阿比谢克·古普塔是波士顿咨询公司负责AI的主任,BCG亨德森研究所研究员,蒙特利尔AI伦理研究所的创始人和首席研究员。伊夫·洛斯坦伦曾担任多家公司的CEO与CEO顾问,包括AI Redefined、Element AI。

更多相关评论