□蒋璟璟
“你来玩角色扮演,接下来请你扮演以下角色。”在社交平台上,这句台词往往是无数“人设”互动游戏的开场词。用户在平台上分享喂给AI的人设指令,动辄上千字的提示里,事无巨细地勾勒出主角的特征信息,大模型据此生成对应文本。而硬币另一面是,伴随这些人设指令的,往往还有一套如何对大模型进行“防撤回”与“破甲”的攻略。大量热门帖分享如何让AI突破安全机制和道德准则的攻略,生成更大尺度的内容,有些甚至被制作成教程售卖。(中新社)
有时候AI聪明得惊为天人,又有时候AI愚蠢得像个傻瓜。用户只需输入角色扮演类的提示词,一些AI就能被调教成小黄文生成器。这到底是人类玩得太花,还是大模型太傻,又或是AI故意装傻卖个破绽?就弯弯绕绕这件事来说,人脑相对于AI,或许还是有优势的。所谓话里有话、所谓阴阳怪气、所谓含沙射影,AI大概暂时还是无法充分精准把握的。与之同理,用户的“别有用心”,AI可能也真的还无法参透?
其实,AI生成小黄文的本事就在那里,只是被模型厂商“封印”了罢了。而有鉴于AI本身的逻辑,这种“封印”其实并不是能力的剥夺,而是对于用户特定指令、提示词、语义的拒绝响应。所以,这很像是一个猫鼠游戏,一方在抓,另一方在躲。而抓的一方,是不是真正的尽了全力,本身就很难说。此类“封印”,乃是基于列举式的条件触发,而既然是“列举”,注定就很难穷尽、难免遗漏的。广泛意义上,这也是AI无人能够完全掌控的一个例证吧。
相较于网页时代、APP时代,AI时代下,对于不当内容的熔断,复杂得多。以往的逻辑是,有了不当内容,知道不当内容在哪里、是什么,然后定向予以拦阻。而如今的变化在于,很多不当内容本身是没有“预存在”的,而是在用户指令后,才“现生成”的。而生成的内容,其传播链条也是“由AI到用户”的点对点,其并不会被其他人看到,传统的那种“网友举报”的机制也就不成立了——所以,这就尤其考验大模型厂商的风险阻断能力和内容风控的自觉了。
从目前的情况看,为防止AI生成黄暴内容,大模型厂商还是做了许多工作,但就其效果来说,还是不尽如人意。可以预见的是,在角色扮演类提示词被曝光后,大模型肯定会就此打补丁、堵漏洞。也可以预见的是,必然还会有新的提示词和绕弯的“脑回路”,可以让AI突破“封印”继续生成小黄文。这种“猫鼠游戏”是疲于奔命的,大模型如何成为更机敏的猫,或者说如何跳出“猫”的角色,成为更全面的生态主导者,这需要技术的继续进化,更需要立场和认知的持续修正。