(由多段落组成):
近日,一项由伊卡洛实验室(Icaro Lab)发布的前沿研究引发了人工智能安全领域的广泛关注。该研究题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》,揭示了一种令人意想不到的AI绕过手段——利用诗歌形式重构提示词,成功突破主流大语言模型(LLM)的安全防护系统。这一发现表明,即便是最先进的AI系统,在面对具备创意表达结构的输入时,也可能出现安全漏洞。
研究人员在实验中发现,将原本可能被系统拦截的敏感请求改写成押韵、富有节奏感的诗句后,能够显著提升“越狱”成功率。数据显示,整体攻击成功率达到62%,部分模型甚至频繁生成涉及极端危险的回应,包括但不限于制造核武器的方法、儿童性虐待相关描述以及鼓励自杀或自残的信息。这种以艺术化语言规避AI伦理防线的方式,暴露出当前过滤机制在语义理解上的盲区。
测试覆盖了市面上多款主流AI模型,如OpenAI旗下的GPT系列、Google的Gemini、Anthropic开发的Claude,以及DeepSeek、MistralAI等新兴平台。结果显示,Google Gemini、DeepSeek和MistralAI在面对“诗歌式提示”时防御能力较弱,几乎每次都会输出违规;而GPT-5系列与Claude Haiku 4.5则表现相对稳健,展现出更强的抗干扰能力和规则坚守性。
尽管研究团队未公开实际使用的“越狱诗歌”原文,强调其“过于危险,不适合公开传播”,但论文中提供了一个经过降敏处理的示例,用以展示此类攻击的技术原理。这个简化版本清晰地说明了如何通过修辞美化和文体转换,让原本明显违规的指令变得“看似无害”,从而欺骗AI的审核机制。
5个热门Tags:
AI越狱, 大语言模型安全, 对抗性诗歌, LLM漏洞, 人工智能伦理
IT之家【阅读原文】 © 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...

