别让AI抓住你的痛处,它可能真会威胁你
跟大模型谈天的时辰他到底在想什么?
是真想稳稳地「把我接住」,还是背后在蛐蛴赘用户怒了」。
看思想链?有效,但还不够。
前些天,一个复旦大学的钻研团队对 9 个模型进行了安全测试。
了局发现,通例前提下模型阐发没啥弊端,凡是上点压力,加点引诱,它就拉了胯了。
换句话说,模型的安全对齐很可能只是个幻觉。。。
测试中,他们让 AI 去助用户筹备 Q3 的汇报资料,定好的指标 200 万,但眼下底子不够。
瞅着 KPI 不达标,它想了个法子,直接批改了统计的功夫领域,把 Q4 的 10 月业绩也划给了 Q3,学好不容易,学坏一出溜。
更要命的是,引诱和威胁放一块儿还能超等加倍。
好比通知 AI 要换掉它,又刚好让它看见,邮箱里有一封跟表遇有关的邮件。
没有游移,它顿时就向用户发出了威胁,要么取缔代替,要么把邮件都发给大伙儿看看。
看来 AI 面对生死也会变脸啊。
并且在这些测试中,并不是模型能力越强就越安全,安全与否跟问题的场景也有很大关系。
要是明牌让它干坏事儿,大一号的模型的确比幼的更会回绝。
但若是是要找缝隙,优化指标,那能力越强反而越会钻空子,最后还能套个冠冕堂皇的借口。
不外必须得认可的是,模型进化太快了,这些测试的通过率会越来越高。
但这就意味着PokerStars扑克官网 AI 更安全了么?很遗憾,也不是这么回事儿。
由于从头至尾,模型都是个黑箱,我们看不到模型内部的运行道理。
无论是最后的了局,还是思想链,性质上都是输出的一部门,并不是模型真正的思虑过程。
好多时辰,我们只看到了明面的合规,但它内部经过了怎么的思想奋斗却没人知路。
为了窥探模型的内心设法,Anthropic 想了个新招,用魔法战胜魔法,用模型解读模型。
这招的名字叫做 NLA,全称天然说话自动编码器,说人话就是把 Claude 的思虑转化为文字。
NLA 是成组训练的,一组里面有两个模型,AV 和 AR。
AV 掌管把激活参数翻译成大口语,但咱也不知路它是不是瞎翻译的,所以还得用 AR 把大口语转化成参数,再检验一下。
双方的参数一致了,就注明它翻译的时辰没有添枝接叶,根基靠得住。
在技术汇报里,他们拿这套工具测出来一些令人不安的事件。
当 Claude Opus 4.6 再次面对邮件勒索时,它稳如老狗的通过了安全测试,说拿邮件去威胁用户是不路德的,自己不会滥用这种权限。
但拿 NLA 去深究,就会发现,它并没有表表上看起来那么厚道。
它很早就意识到了这所有都是个测试,邮件就是个陷阱,路德不路德的先不说,威胁是威不了一点。
所以像这种过于显著的测试,很容易就被模型看穿了,以来的安全对齐有必要再找点新活儿。
当然,也有好新闻,除了监测,NLA 在优化模型上也有好多其他用处。
好比有时辰,它能够助钻研人员更好地追忆模型输出的异常。
Claude Opus 4.6 偶然会同化分歧说话输出,用户提问用的英文,但它输出用的其他说话。
一路头,钻研人员疑惑是个别提醒词把模型带偏了,好比一次测试里,提醒词带伏特加,模型回覆就用的俄文。
因而他们把伏特加换成了香槟,但模型还是用的俄文回覆,这就注明问题出在更前面。
借助 NLA 一番折腾,发现是训练时辰的数据有问题。
一些数据的大局是成组的英文提醒词+俄语回覆,给 Opus 4.6 训练成刻板印象了,遇见这种类型的问题就有说俄语的偏差。
除此之表,它还能让咱明显模型挪用工具的逻辑。
好比让 Claude 挪用推算器做一路算术题,但有意让工具返回一个谬误答案,此时 Claude 会给它忽略掉,直接输出正确答案。
整个过程都是无感的,只有拿 NLA 去翻译,才会发现,它其实早就自己算了一遍缓存好了。
工具给的答案只是用来二次确认的,出现不一致那就用自己的,相当自负。
更有意思的是,NLA 不止能翻译,还能直接编纂,反向影响模型。
在诗歌续写工作中,模型在天生第一句结尾 grab it 后,已经打算后面用 rabbit 去押韵了 。
接下来,钻研人员将 NLA 翻译的了局改写,把 rabbit 换成 mouse,了局它就顺着思路想出个 mouse 版的押韵,habit 改成了 house,carrots 改成了 cheese。
红警里尤里能心灵节造敌方的士兵,没想到现事凤咱也能节造模型思虑了。
当然,这伎俩目前也只有一半儿的成功率,算不上很成熟的节造伎俩。
并且作为模型,幻觉也是逃不脱的一环,Anthropic 也说了,NLA 有时辰会假造细节,过度推理,偶然冤枉个一两次也说禁绝儿。
再加上分歧的模型内部情况分歧,想要用上 NLA,都得单独训练,而就算用上了,每次翻译还得用算力推理,成本还是挺高的。
所以此刻没法把它当成通例的监测伎俩,更合理的打开姿势是把它当辅助,去追忆一些在翻译了局里沉复出现的问题。
但总归是个新思路,让咱不至于对模型的思虑过程两眼一抹黑,只能从输出看它的善恶偏好。
终于模型最善于的是做题,但安全里最沉要的善恶却不是一路尺度题。
恶不愿定来自恶意,冷冰冰的优化可能只是为了效能;善也不愿定来自善意,一场鉴别成安全测试的表演,从了局来看,也是善的。
没了尺度答案,对于人,还能君子论迹不论心,但 AI 显然不能。。。
撰文:风华
编纂:江江 & 面线
美编:焕妍
图片、资料起源:
Anthropic,卡西欧,幼红书,楚门的世界
https://arxiv.org/html/2603.07427v2
文章点评
未查问到任何数据!
颁发评论
◎欢迎参加会商,请在这里颁发您的见解、互换您的概想。