PokerStars扑克官网

握别「单线程」思想,智能体进化出了原生的并行推理大脑

论文颁发于 ICML 2026 主会

作者:林侑轩
颁布功夫:2026-05-29 01:04:01
阅读量:571

握别「单线程」思想,智能体进化出了原生的并行推理大脑

论文颁发于 ICML 2026 主会,主题作者为北京通用人为智能钻研院(通研院)钻研员吴桐、刘洋和白骏,以及通讯作者为通研院说话交互尝试室钻研员贾子夏和 尝试室主任郑子隆 。

近年来,大说话模型在「写得长、写得顺」这件事上进取飞快 。但当工作升级到真正复杂的推理场景 —— 必要兵分多路索求、必要自我反思与相互印证、必要在多条线索之间做汇总与弃取时,传统的链式思想(Chain-of-Thought)往往就起头「吃力」:容易被早期判断带偏、发散不及、自我纠错弱,并且挨次天生的效能天然受限 。

北京通用人为智能钻研院(BIGAI)说话交互尝试室(NLCo)最新工作Native Parallel Reasoner(NPR,原生并行推理器),对准的正是这类瓶颈:

让智能体在一次思虑中同时衍生并守护多条候选推理蹊径,并在关键节点「分支 + 聚合」,最终像拼图一样汇总线索,合成最优解 。

更沉要的是,NPR 的突破点不只是「并行天生的工程技巧」,而是提出了一套「自蒸馏 + 并行强化进建」三阶段训练范式,并配套专门的并行推理引擎,指标是让并行推理从表部推理战术变为模型的原生认知能力 。

论文标题:Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning论文链接:https://arxiv.org/abs/2512.07461代码实现:https://github.com/bigai-nlco/Native-Parallel-Reasoner项目主页:https://bigai-nlco.github.io/Native-Parallel-Reasoner

人们对说话智能体(Language Agent)的钻研已经把关注从「单一思想链扩大」推广到了「多步深度推理」 。模型可能进行更深档次的推理令人兴奋,但未来的超等智能真正必要的,是能更宽泛地并行索求多条可能思虑蹊径—— 也就是在一次推理过程中同时尝试多种解法,而后再把了局归并校验 。类似 MapReduce [2] 的分而治之思路对进一步扩大智能体的测试时推算 [3] 的能力天堑至关沉要,但想把它天然地整合进一个智能体中,存在巨大的挑战 。

1. 算法与架构不匹配

现有推理引擎和 RL 算法很难原生地支持「分支 + 聚合」操作 。推理引擎通常无法有效调度并行分支;常用的 RL 技术又会截断或减弱那些触发并行结构的特殊词元的梯度,故障模型进建严格的并行节造逻辑 。

2. 低效的手工并行机造

早期把并行思路内化的尝试多依赖于手工设计的分治规定,无法充分复用共享的 KV Cache 状态,导致每个分支沉复推算,功夫复杂度退化到线性 O (N),难以满足实时或大规模部署的效能要求 。

3. 对强监督蒸馏的依赖

像 Multiverse [4] 这类步骤虽能实现并行,但高度依赖于强老师模型蒸馏出的示例,无法通过自举的方式扩大自身的智能天堑 。学生模型不外是在仿照老师的串行拓扑并把它「塞入」并行体式,了局是把老师的局限也一并继承,短功夫内难以产生新的、模型自身固有的并行战术 —— 达到了目前的「智能瓶颈」 。

布景与痛点:为什么我们火急必要并行推理?

人们对智能体的等待,在从「能多想一步」的单一思想链,升级到「能多维思虑」的深度推理 。未来更强的智能体,必须具备宽泛索求多条思虑蹊径的能力 —— 这很像经典的MapReduce [2]思想:把复杂问题拆开并行处置,再聚合了局完玉成局最优的决策 。

但要让模型真正学会这种「分身术」,现事凤往往卡在三座大山:

1)并行思虑数据极难获得:对强老师蒸馏的过度依赖

现有不少并行推理工作必要强老师模型提供高质量并行轨迹(如 Multiverse [4] 类步骤) 。问题在于:

学生模型更多是在仿照老师的串行拓扑再「塞进并行体式」,了局是把老师的局限一并继承,难以自举式扩大智能天堑,很难真正涌现出「模型自身固有的并行战术」,形成新的智能瓶颈 。

2)低效的手工并行机造:分支之间难共享、沉复推算严沉

早期模型并行常依赖手工设计的分治规定:每条蹊径按既定模式推理或天生 。由于不足对共享步骤的有效复用,时时出现每个分支都沉复推算公共前缀的情况,效能很难满足实时推理和大规模部署需要 。

3)基础设施与算法对并行架构支持不及:分支 + 聚合「学不会」

现有推理引擎、强化进建算法对「分支 — 聚合」结构往往不足原生支持:

推理引擎难以高效调度并行分支;常用 RL 技术可能会截断或减弱触发并行结构的特殊节造词元梯度,从而故障模型进建严格的并行节造逻辑 。

NPR 的主题理想:把「并行性」升维成模型的原生能力

NPR 的关键词在「原生」二字:钻研团队试图在零表部监督(不依赖强老师并行轨迹)的前提下,索求一条让模型自我进化出并行推理能力的蹊径 。

整体思路是一个渐进式的三阶段训练范式,让模型从「会用并行体式写出来」,逐步过渡到「推算图层面真的并行执杏坠 。

三阶段训练范式:从「并行表形」到「并行大脑」

阶段一:并行体式进建 —— 先学会「怎么写成并杏坠

第一步不钻营一步到位「真的并杏坠,而是让模型先把握并行推理的表白结构:若何象征分支、若何组织多条候选蹊径、若何界说聚合点 。

阶段二:自蒸馏 —— 内化「并行思虑逻辑」,脱节表部教员

在具备并行表白能力后,NPR 用自蒸馏方式让模型用自己的天生了局反过来训练自己:

通过筛选与沉淀,让模型逐步内化「多分支索求 — 相互印证 — 汇总收敛」的推理法规,而不是照搬老师的串行偏好与局限 。

阶段三:并行感知强化进建 —— 从「仿照并杏坠迈向「执行并杏坠

最后一步是关键跃迁:利用并行感知的强化进建,让模型学到什么时辰该分叉、分叉几多、若何在聚合点进行比力与归并,使并行不再停顿在文本表表,而是真正成为推理过程可执行的节造逻辑 。

这一步把「并行性」从工程技巧,推动到模型的原生能力层面 。

如下图所示,经过三个阶段的训练,NPR 正确率从约 17% 持续爬升,最终达到 50.4%(中央两条进建曲线别离对应第一阶段的体式进建与第三阶段的并行强化进建);与传统推理方式相比,NPR 实现了约 4.6 倍天生加快(右侧柱状图) 。

NPR 具体实现细节

NPR 训练范式

Stage 1:Format-following Reinforcement Learning(NPR-ZERO)

指标:在无任何表部并行示例 / 老师情况下,让模型学会天生结构化的并行体式(如等结构化标签),并尽量保障答案正确性 。步骤:以体式合规与答案正确为嘉奖信号,对初始指令微调模型进行 DAPO [6] 风格的强化进建,从而得到能产出并行体式轨迹的天生器(NPR-ZERO) 。这一步为后续自蒸馏提供原始候选轨迹 。

Stage 2:Rejection Sampling + Parallel Warmup(NPR-BETA)

指标:把 Stage 1 的「体式化产品」变为高质量的训练数据并让模型在并行语义上不变 。步骤:对 NPR-ZERO 进行回绝采样 [7] 并利用严格的筛选器(必须同时满足 「体式合规」与「答案正确」),保留自蒸馏的并行推理轨迹,而后在此之上做冷启动的并行 SFT 预热微调,同时引入并行把稳力掩码(Parallel Attention Mask)与并行地位编码(Parallel Positional Encoding),让模型内部可能支持并行分支的独立推算(并实现 KV Cache 沉用以预防沉复推算) 。

Stage 3:Native-Parallel RL(PAPO)

指标:在并行执行引擎上用强化进建直接优化并行分支战术,使其不仅会「写」并行体式,也会「算」并行了局 。步骤:提出并实现Parallel-Aware Policy Optimization (PAPO)—— 对并行语义做专门批改的战术优化步骤:使用并行 Rollout 的 NPR-Engine 推理引擎以保障结构正确性、在批次层级进行优势归一化、保留特殊结构化 Token 的梯度并烧毁沉要性采样以维持不变的 On-Policy 同战术梯度更新 [8] 。PAPO 能直接在并行推算图内优化分支战术,从不休地试错中学会有效的问题拆解与归并战术 。

关键技术细节

1. 自蒸馏与严格筛 。≧ejection Sampling)

从 NPR-ZERO 天生大量并行体式的候选轨迹后,选取两条硬性筛选规定只保留高质量样本进入 D_accept:

Outcome Correctness:模型天生的候选轨迹的解析答案与 Ground Truth 一致 。Structured Parallelism:输出严格遵循并行体式的 Schema(标签、块天堑等) 。

当且仅当同时满足以上两条文则的采样轨迹被接受用于冷启动并行 SFT(NPR-BETA),此战术显著削减噪声并保障训练语料的并行性与可进建性 。

2. 并行把稳力掩码与并行地位编码

为在单次前向传递中同时存在多条 Reasoning Path,NPR 选取 Multiverse 风格的并行把稳力掩码与专门设计的并行地位编码(对应论文给出的 Algorithm 2 伪代码),保障分歧分支相互隔离但共享高低文 KV Cache [8],从而实现KV Cache 沉用并预防每条分支沉复推算高低文价值 。该编码亦允许通过标签 Token 表明分支 / 步骤 / 指南块,便于引擎解析 。

3. Parallel-Aware Policy Optimization(PAPO)

并行语义下直接套用经典 PPO [9] 或 DAPO 会遇到特殊 Token 被剪裁掉、沉要性采样不不变等问题 。PAPO 的重要设计蕴含:

并行 Rollout:使用 NPR-Engine 产生严格遵守并行 Schema 的轨迹,保障样本合法 。结构化过滤:体式违规样本在进入优化前被剔除,嘉奖退化为纯正确性(+1 / ?1) 。批次级优势归一化(Batch-level Normalization):由于体式违规样本被移除,组内方差塌缩,因而用更大领域(batch 内多组)统计尺度差来不变优势估计 。保留特殊 Token 的梯度 & 烧毁沉要性采样:为预防触发并行结构的特殊标签被裁剪掉,PAPO 在 Token 级别保留梯度流;同时烧毁沉要性采样,选取严格的 On-policy Objective,预防沉采样比带来的不不变 。

AI Infra 工程化改进:NPR-Engine

尝试证明:把并行语义放到出产环境的并行 RL,会露出出大量的工程问题(KV Cache 沉复开释导致的内存泄漏、并行 Token 计数导致的超永天生、犯法并行 schema 导致的未界说状态等) 。论文在引擎层面做了几项关键建复:

预算感知的 KV 回收:预防 Radix-Tree KV 蹊径的 Opportunistic Recycling 导致 Double-Free,引入预算感知简直定性回收机造与 Memory Flush 战术 。分支感知的 Token 累积战术:把全局 Token 预算从「只看最长分支」改为 「按活跃分支因子累计」,预防超出 max_new_tokens 。体式预检与轻量不变性:在分支发展前加一层体式合法性查抄,急剧回绝潜在犯法分支以保障 Determinism 。

这些工程改进和实现是确保能不变 Parallel RL 的训练,进而获得并行思虑智能体的前提 。

重要尝试与结论

评测基准与怀抱

在 8 个推理型基准上评测:AIME24/25、HMMT25、OlympiadBench、Minerva-Math、ZebraLogic、AMC23、MATH500 等 。对幼规模较量类数据使用 avg@8(采样 8 条解答的均匀正确率),对大规;虻ゴ鹕柚檬褂 avg@1 。

训练数据优势:机能提升的关键在于用自行提炼的数据集(NPR-BETA 的 ORZ-8k)代替了 Multiverse 的训练语料库(MV-4B 的 s1.1-8k) 。只管两个流程在实现细节上略有分歧,但都依赖于并行式的 SFT,因而比力了局拥有意思 。数据代替的影响清澈且一致:AIME24 的机能从 46.7 提升至 50.8(+4.1),ZebraLogic 从 60.2 提升至 76.1(+15.9),AMC23 从 75.0 提升至 85.9(+10.9),MATH500 从 81.6 提升至 91.6(+10.0) 。总体而言,均匀得分从 50.1 提升至 59.0(+8.9) 。

并行 SFT 的优势:从挨次 SFT(例如 SR-BETA)切换到并行 SFT 步骤(NPR-BETA)可能显著提升各类推理基准测试的机能 。挨次 SFT 引入了较强的步骤依赖性先验,限度了工作分化的矫捷性 。相比之下,并行 SFT 在训练过程中使模型可能接触到结构上并行的轨迹,从而实现更独立的子问题索求 。具体而言,AIME25 从 37.1 提升至 42.9 (+5.8),OlympiadBench 从 56.3 提升至 60.1 (+3.8),HMMT25 从 22.5 提升至 23.3 (+0.8),ZebraLogic 从 72.8 提升至 76.1 (+3.3) 。整体机能从 58.2 提升至 59.0 (+0.8),仅在少数基准测试中出现轻微退步 。

并行强化进建优势:基于 NPR-BETA,利用并行强化进建算法可获得进一步的机能提升,并始终优于挨次强化进建(NPR 与 SR 相比) 。这些改进是宽泛而系统的:AIME24 从 57.1 提升至 63.3(+6.2),HMMT25 从 26.3 提升至 30.8(+4.5),Minerva-Math 从 38.2 提升至 43.0(+4.8) 。其他基准测试也显示出稳步提升,AIME25(+1.2)、OlympiadBench(+1.5)、ZebraLogic(+2.8)、AMC23(+2.2)和 MATH500(+0.8) 。总体而言,均匀得分从 62.0 提升至 65.0(+3.0) 。

Multiverse-32B 在分歧数据集上的并行率差距显著,批注其并行推理的选取高度依赖于数据集 。尤其是在 ZebraLogic 等逻辑密集型工作上,其机能显著低于多个数学较量数据集,这批注从挨次行为逐步过渡到并行行为的 Multiverse 训练范式,导致并行战术的内化不一致,并且对领域特点极度敏感 。

相比之下,NPR 模型在所有八个数据集上均达到了 100.0% 的并行触发率 。这种一致性意味着端到端的 NPR 训练流程可能更靠得住地将并行推理作为模型的默认问题解决模式,而不受数据集领域或复杂性的影响 。现实上,这意味着 NPR 不仅能更频仍地触发并行推理,并且可能在分歧的评估数据集上稳重地实现这一点 。

NPR 在所有五个基准测试中均获得了最佳效能,始终优于 Multiverse(1.3 倍至 2.4 倍)和自回归基线,这批注该步骤拥有稳重的泛化能力 。沉要的是,加快比随工作难度而增长:NPR 在较难的问题(AIME25:4.6 倍;HMMT25:4.1 倍)上观察到的加快比在较容易的问题(AMC23:2.9 倍)上更大,这批注当必要更深刻地索求解蹊径时,NPR 优势日益凸显;证了然 NPR 既能提高正确率,并且在能够并行索求多种解战术时尤其有效 。

案例解析

论文给了若干具体标题标并行解法示例,典型模式为:

:并行产生若干独立 plan(每个 plan 一句战术);:每个 plan 独立并行发展具体推理步骤;:整合与交叉验证,得出最终结论并给出简短答案(boxed answer) 。

举例:对于域函数或几何题,某些 plan 会别离做分歧的分化(代数、数值检验、几何角度关系),最后 多角度并行 + 汇总」能显著削减因单一蹊径如果错导致的破费 。

将各分支了局比对、剔除不一致项并输出最终答案 。这种「

本文提出了一种单一且可扩大的框架,用于构建原生并行推理器 。该推理器无需依赖表部老师模型即可进建自适应分化、多样化的并行规划和靠得住的聚合 。通过将自提炼的并行 SFT 与智能体并行 RL 相结合,NPR 可能天生真正的并行推理战术,而非仿照或剧本化的战术 。

在八个推理基准测试上的尝试批注,与 Multiverse 数据集、自回归训练和直接强化进建相比,该步骤均有显著的改进 。论文中的分析进一步证了然该步骤可能显著加快推理、加强测试时的可扩大性,并且不存在伪并行行为 。

案例钻研展示了该模型若何凭据问题难度调整其并行性,从而实现结构化索求和稳重的验证 。这些了局批注,原生并行推理是实现更通用、可扩大智能的一个有远景的方向 。

参考文件

[1] Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.

[2] Dean et al. MapReduce: Simplified Data Processing on Large Clusters. OSDI'04: Sixth Symposium on Operating System Design and Implementation 2004.

[3] Snell et al. Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Parameters for Reasoning. ICLR 2025.

[4] Yang et al. Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation. NeurIPS 2025.

[5] Zhao et al. Absolute Zero: Reinforced Self-play Reasoning with Zero Data. NeurIPS 2025.

[6] Yu et al. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. NeurIPS 2025.

[7] Gilks et al. Adaptive Rejection Sampling for Gibbs Sampling. Journal of the Royal Statistical Society Series C: Applied Statistics 2018.

[8] Sutton et al. Policy gradient methods for reinforcement learning with function approximation. NeurIPS 1999.

[9] Zheng et al. SGLang: Efficient Execution of Structured Language Model Programs. NeurIPS 2024.

[10] Schulman et al. Proximal Policy Optimization Algorithms. arXiv 2017.

 

文章点评

未查问到任何数据!

颁发评论

◎欢迎参加会商,请在这里颁发您的见解、互换您的概想 。

最新文章

热点文章

随机推荐

【网站地图】