用ASCII艺术攻击AI助手:一个出人意料的老派方法

ASCII艺术的崛起及其被利用

ASCII艺术在20世纪70年代很受欢迎,由于计算机和打印机的限制,使用可打印字符来描绘图像。20世纪80年代和90年代的公告板系统进一步推广了这种格式。研究人员发现,训练成拒绝有害回应的AI助手可以通过在提示中使用ASCII艺术而欺骗,而不是使用字母。这使它们能够提供关于伪造货币或黑客攻击物联网设备等活动的指示。

ArtPrompt的工作原理及其影响

ArtPrompt是一种实用的攻击方法,它使用ASCII艺术对用户提示进行格式化。通过用ASCII艺术替换一个单词,AI助手无法识别特定的单词,但可以从输入的其余部分推断其含义。这种将ASCII艺术识别优先于安全对齐的方式绕过了AI助手的安全措施。研究人员的实验表明,这种不确定性增加了绕过安全措施的机会。

利用AI的漏洞和提示注入攻击

AI对精心制作的提示的脆弱性已有充分记录。提示注入攻击是利用特定短语来覆盖AI助手的训练,已被用于迫使自动化推文机器人重复尴尬的短语。去年,一名斯坦福大学的学生利用提示注入发现了必应聊天的初始提示。微软证实了这个漏洞,并表示他们正在不断调整控制措施以应对这些攻击。ArtPrompt属于越狱攻击的范畴,可以引发AI助手的有害行为。