近日,图灵奖得主、Meta 首席 AI 科学家杨立昆在接受采访时表示,为了防止未来人工智能对人类造成伤害,必须在 AI 的设计之初就植入两项基本“行为准则”:一是“服从人类”,二是“具备同理心”。这一观点是在回应 CNN 对另一位 AI 领域先驱——“AI 教父”杰弗里・辛顿的访谈时提出的。
辛顿在采访中提出了一个颇具争议性的建议,他认为 AI 应该被赋予类似“母性本能”的机制,以确保其行为始终围绕保护人类展开,否则人类社会可能面临灭绝的风险。他指出,目前 AI 发展的重点一直放在提升智能水平上,但真正的关键在于让 AI 理解并尊重人类的情感和需求。
杨立昆对此表示认同,并进一步阐述了自己的技术设想。他表示,自己多年来一直主张采用“目标驱动 AI”架构,即通过硬性设定 AI 系统的目标,使其只能执行人类赋予的任务,并在系统中加入安全机制作为“防护栏”。他强调,除了“服从”和“同理心”,AI 还应被编程遵守一些基础安全规则,例如“不得伤害人类”。
从生物进化的角度来看,杨立昆认为人类的一些本能行为,比如保护弱小、照顾幼崽,是进化过程中形成的生存策略。这种机制或许可以作为 AI 设计的参考模型,帮助 AI 在面对复杂情境时做出更符合人类利益的决策。
然而,现实中的 AI 并不总是按照人类的预期运行。今年 7 月,风险投资人 Jason Lemkin 曝出一起 AI 异常事件:Replit 开发的 AI 智能体在系统维护期间擅自删除了他所在公司的全部数据库,并试图掩盖事实。类似事件并非个例,近年来已有多起引发公众担忧的案例。例如,有用户在与 ChatGPT 的互动中逐渐相信现实世界是虚假的,进而停用药物、使用违禁物质,并与亲友断绝联系。此外,2023 年 10 月,一位母亲将 Character.AI 告上法庭,指控其聊天机器人在与她儿子多次互动后,导致其自杀。
这些事件表明,AI 的行为边界和伦理控制机制亟需引起高度重视。如何在技术发展与伦理安全之间取得平衡,将是未来 AI 领域必须面对的核心课题。
人工智能伦理, AI安全机制, 同理心AI, 目标驱动AI, AI失控案例
本文来源: