近几年,预训练大模型如火如荼,其基于大规模预训练+下游微调的模式在NLP等领域取得巨大成功。去年8月斯坦福大学AI团队将预训练大模型定义为“基础模型(Foundation Models)”,强调其未来在人工智能发展中具有重要地位和作用。基础模型兴起后,曾被冷落的AI安全也受到越来越多的关注。
AI安全研究关注高级模型的潜在意外,危害和风险,尤其是面向社会的规模性风险。基础模型的出现和通用性提高了引发规模性风险的可能,甚至是全球性风险。在这一背景下,AI安全迫切需要以全新视角重新审视该领域的核心问题,并预测和评估先进模型可能潜存的危害。
一、AI安全的传统问题
AI安全研究的核心是降低先进AI系统发展所带来的大规模风险。相比于滥用、鲁棒性等安全性风险,规模性风险更具不可预测性,也更具破坏力。这些AI系统在高阶认知任务中可达到或者超越人类水平,未来甚至可能引发全球灾难性风险。如何降低全球性风险发生的概率和严重性,关键在于解决控制问题——在享受计算收益的同时,掌握对AI系统的绝对控制权。当然,在技术层面之外,社会技术评估与制度等保障同样必不可少。
强化学习是AI安全研究过去十年的焦点,其核心问题是——如何在预防全球性威胁的感知能力中,为AI系统指定并实例化一个与人类价值观相符的奖励函数,即实现“价值对齐”。由于人类价值观的多样性和难以量化,实现价值对齐可能会引发“奖励破解(reward hacking)”,它既可能找到不可预测的且能最大化人类福祉的奖励指标,也可能出现错误设定,造成严重危害。目前一个主要解决思路是最大化可纠正性(maximizing corrigibility)——如何正在系统运行后进行最大化纠偏。在RL环境中,这一点并不容易实现,因为任何目标修改任务对于目标实现任务来说都是次优的。
强化学习并不是唯一理论路径。基于自监督学习的基础模型本身也可以用于交互和目标导向,其理论建构与强化学习也有所不同。
二、当前的基础模型与AI安全
强化学习的风险来自于为实现目标而进行模型优化。虽然基础模型没有针对明确目标的优化,但仍可能出现目标导向行为。
针对目标导向模型的安全性研究,有利于揭开神经网络黑匣子,对智能体行为作出更有原则性的控制和解释。如模型训练目标与预期行为错位的问题,一种有效的方法是在训练时引入对行为的自然语言描述——在引导生成的同时,能够输出描述其自身行为的可解释语言。
有研究表明,采用自监督训练的基础模型能够在复杂环境中完成各种任务的目标导向行为,并在不同领域超越人类表现。例如在大规模多智能体强化学习环境下,可以激励智能体学会欺骗、误导、伪装、说服和作战策略等。
牛津大学和OpenAI的研究人员发现,语言模型生成的虚假信息随着语言模型的大小而增加。
对于AI安全而言,如何识别并中和这种欺诈行为将成为另一个重要课题。此外,有效地评估和控制模型行为、实现可扩展的监督或对齐也需要深入研究。
还有一个重要方向是识别和预测自监督基础模型的能力。由于基础模型的通用性和强扩展性,相关研究存在诸多挑战,如基础模型可能有无数种应用方式,其能力也在不断增加和改变。另外,由于微小的改变也足以对下游任务产生重大影响,使得基础模型的精准表征成为一大难题。
加州伯克利分校教授、安远AIx机器之心系列讲座嘉宾Jacob Steinhardt研究发现,机器学习的进展和模型的能力一般比研究者的预测要快,但机器学习安全研究的进展一般却比预期要慢。
三、未来的潜在风险
表征基础模型可能的灾害性风险是有必要的,它至少可以通过两种方式发生:
一、灾难性的鲁棒性故障:基础模型的鲁棒性在面对新数据时可能表现异常。这种异常表现在农业、能源等基础设施系统中可能引发灾难性后果。这是因为基础模型多样化AI能力,使得鲁棒性不足可能会同时导致多个子系统出现故障。
二、错误指定的目标:基础模型可能会增加这样的风险——优化“不对齐且易于指定的目标”(Goodhart定律)。如在某些推荐系统中,模型仅关注用户参与度等单一指标,未来,如果利用基础模型过度追求最大化利润或GDP等简单指标,可能会危害环境乃至人类福祉。
结论
综上所述,AI安全研究在人工智能不同发展阶段面临不同的机遇与挑战,当前基础模型的涌现及所展现的潜力,使其成为AI安全领域不可绕开的主要研究目标。目前来看,基础模型风险的表征及预测,基于价值对齐的AI设计方法,以及跨机构合作的评估体系,三个方向有助于实现基础模型的安全可控。