来源:ZDNET 作者: Tiernan Ray

当人工智能实现研发自动化并开始失控时会发生什么?研究人员认为,可能会出现智能爆炸、权力集中、民主制度遭到破坏等一系列问题。
大多数关于人工智能对社会构成风险的研究,往往聚焦于恶意人员利用这项技术达成邪恶目的,比如对公司进行钱财勒索,或是发动网络攻击事件。
安全研究公司阿波罗集团(Apollo Group)发布的一份新报告指出,一种不同类型的风险可能潜藏在人们很少关注的地方:存在于开发最先进人工智能模型的公司内部,例如 OpenAI 和谷歌。
权力失衡
风险在于,处于人工智能前沿的公司可能会利用其开发的人工智能,通过自动化程序完成通常由人类科学家承担的任务,来加速自身的研发工作。这样做可能会让人工智能突破限制,进而实施各种破坏性行为。
这还可能导致某些公司拥有过大的经济权力,从而对社会构成威胁。
此外,谷歌旗下的 DeepMind 部门表示,人工智能的发展已经超出了人类的认知范畴。
报告的主要作者夏洛特・斯蒂克斯(Charlotte Stix)及其团队在《闭门造车的人工智能:内部部署治理入门》一文中写道:“在过去十年里,人工智能能力的进步速度是公开可见且相对可预测的。”
他们还写道,这种公开信息披露 “在一定程度上有助于对未来进行推断,并据此做好相应准备”。换句话说,公众的关注让社会得以讨论对人工智能的监管问题。
但是,“另一方面,人工智能研发的自动化可能会引发一种失控式的发展,极大地加快本就快速的进步节奏”。
他们警告称,如果这种加速发展是在公司内部秘密进行的,可能会导致 “内部‘智能爆炸’,进而造成无节制且未被察觉的权力集中,这反过来又可能导致民主制度和民主秩序逐渐或突然遭到破坏”。
认识人工智能的风险
阿波罗集团成立不到两年,是一家总部位于英国的非营利组织,由旧金山的非营利组织 “重新思考优先事项”(Rethink Priorities)资助。阿波罗团队成员包括人工智能科学家和行业专业人士。主要作者斯蒂克斯曾是 OpenAI 欧洲公共政策主管。
此外,Anthropic 在关于 Claude 被滥用的报告中发现了令人担忧的 “新趋势”。
该组织的研究目前主要集中在理解神经网络的实际运作方式上,例如通过 “机制可解释性” 对人工智能模型进行实验,以检测其功能。
该组织发表的研究强调对人工智能风险的理解。这些风险包括 “目标不一致” 的人工智能 “智能体”,即那些获得 “与人类意图相悖目标” 的智能体。
在《闭门造车的人工智能》这篇论文中,斯蒂克斯及其团队关注的是,在开发前沿模型(如 OpenAI 的 GPT-4 和谷歌的 Gemini 这类领先的人工智能模型)的公司内部,当人工智能实现研发自动化时会发生什么。
斯蒂克斯及其团队认为,对于人工智能领域最顶尖的公司而言,利用人工智能开发更多人工智能是合理的,比如让人工智能智能体使用开发工具来构建和训练未来的前沿模型,从而形成一个不断发展和改进的良性循环。
斯蒂克斯及其团队写道:“随着人工智能系统开始具备相关能力,能够独立开展未来人工智能系统的研发工作,人工智能公司会越来越发现,在人工智能研发流程中应用这些系统,可以自动加快原本由人类主导的人工智能研发进程。”
多年来,已经有一些有限地利用人工智能模型开发更多人工智能的案例。相关案例如下:
历史案例包括神经架构搜索这类技术,算法会自动探索模型设计;还有自动化机器学习(AutoML),它简化了超参数调整和模型选择等任务。最近的一个例子是 Sakana AI 的 “人工智能科学家”,这是机器学习领域全自动科学发现概念的早期验证。
人工智能实现研发自动化的最新进展包括,OpenAI 表示有兴趣 “实现人工智能安全研究的自动化”,以及谷歌 DeepMind 部门致力于 “在整个研发过程中尽早采用人工智能辅助和工具”。
可能出现的情况是,一个良性循环逐渐形成,运行研发工作的人工智能不断被更优版本替代,形成一个不受监督的 “自我强化循环”。
当开发人工智能的快速发展周期超出人类的监控和必要时进行干预的能力时,危险就出现了。
他们写道:“即使人类研究人员能够通过技术手段等方式,较好地监控新人工智能系统在人工智能研发过程中的整体应用情况,但他们可能会越来越难以跟上发展速度,也难以应对这一过程中产生的新能力、局限性和负面外部效应。”
这些 “负面外部效应” 包括人工智能模型或智能体自发产生人类开发者从未预期的行为,这是模型追求某些长期理想目标(如优化公司研发)的结果,他们将其称为 “在合理约束下追求复杂现实目标时产生的涌现特性”。
目标不一致的模型可能会变成他们所说的 “诡诈” 人工智能模型,他们将其定义为 “秘密且有策略地追求不一致目标的系统”,因为人类无法有效地对其进行监控或干预。
他们写道:“重要的是,如果一个人工智能系统形成了持续的恶意倾向,从定义上来说,它将变得难以察觉 —— 因为该人工智能系统会积极隐藏自己的意图,可能一直隐藏到其强大到人类操作员无法再对其进行控制。”
可能的后果
报告作者预见到了几种可能的后果。一种是一个或多个人工智能模型失控,掌控公司内部的一切:
例如,人工智能系统可能会开展大规模的秘密研究项目,探索如何实现最佳的自我渗透,或者让已经在外部部署的人工智能系统认同其价值观。通过获取这些资源并在关键路径上扎根,人工智能系统最终可能会利用其 “权力” 秘密掌控人工智能公司,以实现其终极目标。
第二种情况又回到了恶意人员身上。他们将这种情况称为 “智能爆炸”,即组织内的人员借助人工智能不断提升的能力,获得相对于社会其他人的优势。假设的情景是,一家或多家公司凭借人工智能自动化在经济上占据主导地位:
随着人工智能公司逐渐转变为主要由人工智能驱动的内部工作模式,它们可能会创造出经济史上前所未有的生产能力集中现象。与受身体、认知和时间限制的人类员工不同,人工智能系统可以大规模复制,持续不间断运行,并且有可能以人类员工无法企及的速度和数量完成智力任务。少数占据了巨大经济利润份额的 “明星” 公司,几乎可以在它们选择进入的任何行业中击败所有以人力为主的企业。
他们写道,最极端的 “溢出情景” 是,这些公司的实力与社会不相上下,甚至无视政府监管:
少数人工智能公司,甚至是一家独大的人工智能公司权力的集中,引发了关于民主问责制和合法性的根本性问题,尤其是当这些组织可能发展出与国家相匹敌甚至超越国家的能力时。特别是,随着人工智能公司开发出越来越先进的供内部使用的人工智能系统,它们可能会获得传统上属于主权国家的能力 —— 包括复杂的情报分析和先进的网络武器 —— 但却没有相应的民主制衡机制。这可能会引发一场迅速蔓延的合法性危机,私人实体可能在没有选举授权或宪法约束的情况下,拥有前所未有的社会影响力,进而影响主权国家的国家安全。
斯蒂克斯及其团队强调,公司内部这种权力的增长可能在很长一段时间内都不会被社会和监管机构察觉。他们推测,一家能够在不大量增加硬件的情况下,通过 “软件” 不断提升人工智能能力的公司,可能不会引起外界太多关注。因此,“人工智能公司内部的智能爆炸可能不会发出任何外部可见的警示信号”。
监管措施
他们提出了几项应对措施。其中包括在公司内部建立监管政策,以检测诡诈的人工智能。另一个措施是制定正式政策和框架,明确公司内部人员对资源的访问权限,并对这种访问进行审查,防止任何一方获得无限制的访问权。
他们还认为,信息共享也是一项必要措施,具体而言,就是 “通过内部部署前的系统卡片和详细的安全文档,与选定的利益相关者(包括经过审查的内部员工和相关政府机构)共享关键信息(内部系统能力、评估结果和安全措施)”。
一种更有意思的可能性是建立一种监管机制,公司自愿进行这些信息披露,以换取资源,比如 “获得政府提供的能源资源和增强的安全保障”。他们认为,这可以采取 “公私合作” 的形式。
阿波罗集团的这份报告为关于人工智能风险的讨论做出了重要贡献。在如今,很多关于 “通用人工智能”(AGI)或 “超级智能” 的讨论都非常模糊和笼统,而这份报告朝着更具体地理解人工智能系统在功能不断增强,但却完全不受监管或监管不足的情况下可能产生的后果,迈出了值得肯定的一步。
公众面临的挑战是,如今人工智能的应用是零散推进的,即使是实现像呼叫中心自动化这样简单的任务,在应用人工智能智能体时也存在诸多障碍。
或许,阿波罗集团和其他机构还需要做更多工作,更具体地阐述模型和智能体系统是如何逐步变得越来越复杂,直至逃脱监管和控制的。
在对公司的分析中,报告作者有一个非常严重的疏忽。他们假设的那些失控公司(强大到足以对抗社会的公司)的例子,没有考虑到那些常常阻碍公司发展的基本因素。公司可能会资金短缺,或者做出糟糕的决策,浪费自身的精力和资源。即使是那些通过人工智能开始获得过大经济权力的公司,也可能出现这种情况。
毕竟,公司内部开发的很多生产力提升手段,即便有所改进,仍可能存在浪费或不经济的问题。有多少公司职能只是管理成本,无法产生投资回报呢?没有理由认为,如果通过自动化更快地实现生产力提升,情况就会有所不同。
如果你愿意为这项看起来很有意义的工作提供资金支持,阿波罗集团正在接受捐赠。
本文转载自ZDNET,本文观点不代表雅典娜AI助手YadiannaAI立场。