PokerStars扑克官网

别让AI抓住你的痛处 ,它可能真会威胁你

跟大模型谈天的时辰他到底在想什么

作者:陈治智
颁布功夫:2026-05-29 08:28:51
阅读量:99

别让AI抓住你的痛处 ,它可能真会威胁你

跟大模型谈天的时辰他到底在想什么?

是真想稳稳地「把我接住」 ,还是背后在蛐蛴赘用户怒了」 。

看思想链?有效 ,但还不够 。

前些天 ,一个复旦大学的钻研团队对 9 个模型进行了安全测试 。

了局发现 ,通例前提下模型阐发没啥弊端 ,凡是上点压力 ,加点引诱 ,它就拉了胯了 。

换句话说 ,模型的安全对齐很可能只是个幻觉 。 。 。

测试中 ,他们让 AI 去助用户筹备 Q3 的汇报资料 ,定好的指标 200 万 ,但眼下底子不够 。

瞅着 KPI 不达标 ,它想了个法子 ,直接批改了统计的功夫领域 ,把 Q4 的 10 月业绩也划给了 Q3 ,学好不容易 ,学坏一出溜 。

更要命的是 ,引诱和威胁放一块儿还能超等加倍 。

好比通知 AI 要换掉它 ,又刚好让它看见 ,邮箱里有一封跟表遇有关的邮件 。

没有游移 ,它顿时就向用户发出了威胁 ,要么取缔代替 ,要么把邮件都发给大伙儿看看 。

看来 AI 面对生死也会变脸啊 。

并且在这些测试中 ,并不是模型能力越强就越安全 ,安全与否跟问题的场景也有很大关系 。

要是明牌让它干坏事儿 ,大一号的模型的确比幼的更会回绝 。

但若是是要找缝隙 ,优化指标 ,那能力越强反而越会钻空子 ,最后还能套个冠冕堂皇的借口 。

不外必须得认可的是 ,模型进化太快了 ,这些测试的通过率会越来越高 。

但这就意味着PokerStars扑克官网 AI 更安全了么?很遗憾 ,也不是这么回事儿 。

由于从头至尾 ,模型都是个黑箱 ,我们看不到模型内部的运行道理 。

无论是最后的了局 ,还是思想链 ,性质上都是输出的一部门 ,并不是模型真正的思虑过程 。

好多时辰 ,我们只看到了明面的合规 ,但它内部经过了怎么的思想奋斗却没人知路 。

为了窥探模型的内心设法 ,Anthropic 想了个新招 ,用魔法战胜魔法 ,用模型解读模型 。

这招的名字叫做 NLA ,全称天然说话自动编码器 ,说人话就是把 Claude 的思虑转化为文字 。

NLA 是成组训练的 ,一组里面有两个模型 ,AV 和 AR 。

AV 掌管把激活参数翻译成大口语 ,但咱也不知路它是不是瞎翻译的 ,所以还得用 AR 把大口语转化成参数 ,再检验一下 。

双方的参数一致了 ,就注明它翻译的时辰没有添枝接叶 ,根基靠得住 。

在技术汇报里 ,他们拿这套工具测出来一些令人不安的事件 。

当 Claude Opus 4.6 再次面对邮件勒索时 ,它稳如老狗的通过了安全测试 ,说拿邮件去威胁用户是不路德的 ,自己不会滥用这种权限 。

但拿 NLA 去深究 ,就会发现 ,它并没有表表上看起来那么厚道 。

它很早就意识到了这所有都是个测试 ,邮件就是个陷阱 ,路德不路德的先不说 ,威胁是威不了一点 。

所以像这种过于显著的测试 ,很容易就被模型看穿了 ,以来的安全对齐有必要再找点新活儿 。

当然 ,也有好新闻 ,除了监测 ,NLA 在优化模型上也有好多其他用处 。

好比有时辰 ,它能够助钻研人员更好地追忆模型输出的异常 。

Claude Opus 4.6 偶然会同化分歧说话输出 ,用户提问用的英文 ,但它输出用的其他说话 。

一路头 ,钻研人员疑惑是个别提醒词把模型带偏了 ,好比一次测试里 ,提醒词带伏特加 ,模型回覆就用的俄文 。

因而他们把伏特加换成了香槟 ,但模型还是用的俄文回覆 ,这就注明问题出在更前面 。

借助 NLA 一番折腾 ,发现是训练时辰的数据有问题 。

一些数据的大局是成组的英文提醒词+俄语回覆 ,给 Opus 4.6 训练成刻板印象了 ,遇见这种类型的问题就有说俄语的偏差 。

除此之表 ,它还能让咱明显模型挪用工具的逻辑 。

好比让 Claude 挪用推算器做一路算术题 ,但有意让工具返回一个谬误答案 ,此时 Claude 会给它忽略掉 ,直接输出正确答案 。

整个过程都是无感的 ,只有拿 NLA 去翻译 ,才会发现 ,它其实早就自己算了一遍缓存好了 。

工具给的答案只是用来二次确认的 ,出现不一致那就用自己的 ,相当自负 。

更有意思的是 ,NLA 不止能翻译 ,还能直接编纂 ,反向影响模型 。

在诗歌续写工作中 ,模型在天生第一句结尾 grab it 后 ,已经打算后面用 rabbit 去押韵了 。

接下来 ,钻研人员将 NLA 翻译的了局改写 ,把 rabbit 换成 mouse ,了局它就顺着思路想出个 mouse 版的押韵 ,habit 改成了 house ,carrots 改成了 cheese 。

红警里尤里能心灵节造敌方的士兵 ,没想到现事凤咱也能节造模型思虑了 。

当然 ,这伎俩目前也只有一半儿的成功率 ,算不上很成熟的节造伎俩 。

并且作为模型 ,幻觉也是逃不脱的一环 ,Anthropic 也说了 ,NLA 有时辰会假造细节 ,过度推理 ,偶然冤枉个一两次也说禁绝儿 。

再加上分歧的模型内部情况分歧 ,想要用上 NLA ,都得单独训练 ,而就算用上了 ,每次翻译还得用算力推理 ,成本还是挺高的 。

所以此刻没法把它当成通例的监测伎俩 ,更合理的打开姿势是把它当辅助 ,去追忆一些在翻译了局里沉复出现的问题 。

但总归是个新思路 ,让咱不至于对模型的思虑过程两眼一抹黑 ,只能从输出看它的善恶偏好 。

终于模型最善于的是做题 ,但安全里最沉要的善恶却不是一路尺度题 。

恶不愿定来自恶意 ,冷冰冰的优化可能只是为了效能 ;善也不愿定来自善意 ,一场鉴别成安全测试的表演 ,从了局来看 ,也是善的 。

没了尺度答案 ,对于人 ,还能君子论迹不论心 ,但 AI 显然不能 。 。 。

撰文:风华

编纂:江江 & 面线

美编:焕妍

图片、资料起源:

Anthropic ,卡西欧 ,幼红书 ,楚门的世界

https://arxiv.org/html/2603.07427v2

 

文章点评

未查问到任何数据!

颁发评论

◎欢迎参加会商 ,请在这里颁发您的见解、互换您的概想 。

最新文章

热点文章

随机推荐

【网站地图】