AI被调教生成不当内容，大模型是真傻还是装傻？

□蒋璟璟

“你来玩角色扮演，接下来请你扮演以下角色。”在社交平台上，这句台词往往是无数“人设”互动游戏的开场词。用户在平台上分享喂给AI的人设指令，动辄上千字的提示里，事无巨细地勾勒出主角的特征信息，大模型据此生成对应文本。而硬币另一面是，伴随这些人设指令的，往往还有一套如何对大模型进行“防撤回”与“破甲”的攻略。大量热门帖分享如何让AI突破安全机制和道德准则的攻略，生成更大尺度的内容，有些甚至被制作成教程售卖。（中新社）

有时候AI聪明得惊为天人，又有时候AI愚蠢得像个傻瓜。用户只需输入角色扮演类的提示词，一些AI就能被调教成小黄文生成器。这到底是人类玩得太花，还是大模型太傻，又或是AI故意装傻卖个破绽？就弯弯绕绕这件事来说，人脑相对于AI，或许还是有优势的。所谓话里有话、所谓阴阳怪气、所谓含沙射影，AI大概暂时还是无法充分精准把握的。与之同理，用户的“别有用心”，AI可能也真的还无法参透？

其实，AI生成小黄文的本事就在那里，只是被模型厂商“封印”了罢了。而有鉴于AI本身的逻辑，这种“封印”其实并不是能力的剥夺，而是对于用户特定指令、提示词、语义的拒绝响应。所以，这很像是一个猫鼠游戏，一方在抓，另一方在躲。而抓的一方，是不是真正的尽了全力，本身就很难说。此类“封印”，乃是基于列举式的条件触发，而既然是“列举”，注定就很难穷尽、难免遗漏的。广泛意义上，这也是AI无人能够完全掌控的一个例证吧。

相较于网页时代、APP时代，AI时代下，对于不当内容的熔断，复杂得多。以往的逻辑是，有了不当内容，知道不当内容在哪里、是什么，然后定向予以拦阻。而如今的变化在于，很多不当内容本身是没有“预存在”的，而是在用户指令后，才“现生成”的。而生成的内容，其传播链条也是“由AI到用户”的点对点，其并不会被其他人看到，传统的那种“网友举报”的机制也就不成立了——所以，这就尤其考验大模型厂商的风险阻断能力和内容风控的自觉了。

从目前的情况看，为防止AI生成黄暴内容，大模型厂商还是做了许多工作，但就其效果来说，还是不尽如人意。可以预见的是，在角色扮演类提示词被曝光后，大模型肯定会就此打补丁、堵漏洞。也可以预见的是，必然还会有新的提示词和绕弯的“脑回路”，可以让AI突破“封印”继续生成小黄文。这种“猫鼠游戏”是疲于奔命的，大模型如何成为更机敏的猫，或者说如何跳出“猫”的角色，成为更全面的生态主导者，这需要技术的继续进化，更需要立场和认知的持续修正。