PokerStars扑克官网

港科大联手社区开源StarVLA:一个框架揭秘所有主流VLA

若是说 2017 年的 PyTorch

作者:詹晴香
颁布功夫:2026-05-29 07:14:45
阅读量:715

港科大联手社区开源StarVLA:一个框架揭秘所有主流VLA

若是说 2017 年的 PyTorch 让深度进建从 "少数派的炼丹炉" 造成了 "人人可用的工程平台" ,那么具身智能(Embodied AI)在期待属于它自己的 "PyTorch 时刻"。

从前两年 ,VLA(Vision-Language-Action ,视觉-说话-作为)模型险些是机械人领域最火热的方向:从 Google 的 RT-2、Physical Intelligence 的 π? ,到 NVIDIA 的 GR00T、OpenVLA、Cosmos…… 险些每隔几周就有新模型刷屏。但走进任何一个机械人尝试室你城市发现一个狼狈的现实:

想复现一篇论文?代码不全、数据接口对不上;想平正对比两种步骤?训练和谈、评估基准各搞一套;想换个作为头试试?整个工程险些要沉写一遍;想知路 "VLM 主干" 和 "World Model 主干" 到底谁更强?没有人在一致前提下比过。

整个 VLA 领域看似繁华 ,实则像是一个个 "黑箱" 散落在分歧尝试室里。

最近 ,来自港科大和开源社区团队推出了StarVLA盛开钻研平台。与其说他们创造了一个全新的 VLA 模型 ,不如说他们做了一件更 “基础设施” 的事:将当前主流的 VLA 范式、作为头、训练战术和评估基准 ,统一整合到统一个开源框架中 ,让所有尝试都能够在平正、通明、可复现的前提下进行。

值得一提的是 ,StarVLA 并非一挥而就的新品 ,它早已在社区中经过充分检验 ,占有超过 2.2k的 star ,并获得了宽泛认可 ,一向是社区最盛行的框架之一 ,仅次于美国 NVIDIA 和 Physics Intelligent ,在国内同类项目中中断档当先。

这或许正是 VLA 领域所必要的 “PyTorch 时刻”—— 不再只是比谁的 demo 更炫 ,而是让钻研者们站在统一条起跑线上 ,将 VLA 真正作为一门能够科学验证的学科来深刻钻研。

论文标题:StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing论文:https://arxiv.org/pdf/2604.05014代码:https://github.com/starVLA/starVLA支持基准:LIBERO / SimplerEnv / RoboTwin 2.0 / RoboCasa-GR1 / BEHAVIOR-1K / VLA-Arena / Calvin / DOMINO ...

一、为什么说 VLA 必要一个 "PyTorch 时刻"?

回首深度进建的发展史 ,会发现一个法规:任何一个领域真正发作 ,都离不开一个统一的、盛开的、可复现的尝试平台。

推算机视觉之于 ImageNet + Caffe / PyTorch;天然说话处置之于 HuggingFace Transformers;大模型微调之于 LLaMA-Factory、DeepSpeed。

而 VLA 目前正处在 ImageNet 之前的 "前夕":模型好多、demo 很炫、论文产出很快 ,但没有人能通知你 ,在严格节造变量的前提下 ,哪种设计真的更好。

举几个具体的 "魂灵拷问":

自回归作为分词(FAST)、并行回归(OFT)、Flow Matching(π?)、双系统(GR00T)——这四种作为头在统一个主干下的阐发到底差几多?VLM 路线(RT-2、π?)和 World Model 路线(Cosmos , DreamZero)——真的是两条性质分歧的路 ,还是只是 "辅助信号" 的选择分歧?多模态协同训练、跨具身结合训练 ——到底有没有效?提升有多大?在 LIBERO 上 SOTA 的步骤 ,到 RoboCasa、RoboTwin, Behavior 上还能打吗?

在 StarVLA 之前 ,这些问题险些没有人能给出系统性答案—— 由于底子没有同时支持这所有的统一平台。

二、StarVLA 是什么?一个 "全栈式" 的 VLA 尝试平台

StarVLA 的设计哲学非?嗽欤翰环⑾中虏街 ,而是把别人发现的好步骤 ,统一搬到一个屋檐下。

整个框架由四层可插拔?樽槌桑

每一层都能够自由代替、自由组合。 想做 "换作为头不换主干" 的对比?改一行配置。想验证 "协同训练" 的成效?改一个开关。想把 LIBERO 上训好的模型搬到 RoboTwin 上跑实机?统一个接口。

这就是为什么我们说它是 VLA 领域的 "PyTorch 时刻"——它把之前必要沉写整个工程能力做的事 ,造成炼一行配置文件的事。

三、广义 VLA 视角:所有步骤 ,其实是一个公式

在统一这些步骤的过程中 ,作者还提出了一个十吩殳亮的理论观察。

VLA 看似门户多多 —— 有的基于说话模型 ,有的基于视频天生模型;有的自回归 ,有的扩散;有的单系统 ,有的双系统 —— 但当你把它们都塞进统一个框架后会发现 ,它们在数学结构上能够用统一个公式表白:

分歧步骤的性质区别 ,仅在于选用什么 "预训练模型初始化" 以及 "辅助训练的信号" 是什么:

VLM 路线:辅助信号是说话推理(让模型持续 "会措辞");World Model 路线:辅助信号是未来画面预测(让模型持续 "会设想");极简路线:索性没有辅助信号 ,纯作为监督。

作者把这个统一视角称为"广义 VLA"(Generalized VLA)。它意味着:与其纠结 "该选哪条路线" ,不如思虑 "该选什么样的辅助信号"。这一视角 ,为后续 VLA 的系统性钻研提供了一个清澈的理论坐标系。

VLM to VLA 和 World-Model to VLA 的统一架构

四、几个 "反直觉" 的尝试发现

固然 StarVLA 主打 "平台" 而非 "刷榜" ,但作者在搭建过程中也 "顺手" 做了一批严格节造变量的尝试 ,了局颇有意思:

发现 1:极简设置就能打出强基线

不做任何数据加强、只用基准原始数据和公开预训练权沉 ,StarVLA 在 LIBERO 上仅用 30K 步就达到了 98.8% 的成功率 , 在其他主流的 SimplerEnv, Robocasa-GR1, Robotwin 2.0, LIBERO-Plus 上也都有和主流大厂的模型拥有极度靠近的成效。

而前人代表步骤 OpenVLA-OFT , GR00T, PI 等 在统一基准上必要 175K 步 ——训练步数削减了 6 倍。

这注明:以前好多论文堆的 "训练 trick" ,可能并没有设想中那么必要。一个干净、统一的工程实现自身 ,就能开释出巨大的机能空间。

发现 2:数据 "杂" 反而更强 —— 通用模型超过专用模型

把 LIBERO、SimplerEnv、RoboTwin、RoboCasa 四个基准的数据混在一路训练统一个模型 ,了局在难度最高的类人操作基准RoboCasa-GR1 上 ,成功率从 48.8% 提升到了 57.3%。

这意味着:跨工作、跨状态的多样化数据并不会 "互有关扰" ,反而会带来正向迁徙。这是支持 "机械人大一统模型" 路线的一个沉要经验证据。

发现 3:VLM 主干 vs World Model 主干 ,差距没有设想中大

在统一个 OFT 作为头下别离接入 Qwen3-VL(VLM 路线)和 Cosmos-Predict2(World Model 路线) ,两者的机能相当靠近。

这是一个极度沉要的初步结论:业界一向在争论的 "哪条路线才是 VLA 的未来" ,可能自身就是个伪命题—— 真正决定机能的 ,也许并不是主干的 "血统" ,而是辅助信号、训练战术和数据组合。

发现 4:不做协同训练 ,VLM 会在几千步内 "失忆"

把一个预训练好的 VLM 微调成机械人战术时 ,它在几千步内就会迅速迷失原有的视觉理解和说话推理能力—— 物体鉴别变差、空间定位崩坏、指令理解退化。

而参与多模态协同训练后 ,模型能够同时保住 "动脑" 和 "着手" 两种能力。这一景象在论文中以清澈的曲线图出现 ,给所有想要微调 VLM 做机械人的钻研者提了一个醒。

五、为什么这件事 "值得被看见"?

VLA 是当前最受本钱和学术界关注的具身智能方向之一 ,但它也是最容易陷入 "内卷式刷榜" 的方向:每家都汇报自己 SOTA ,但没人能在平正前提下被验证。

StarVLA 的意思刚好在于突破这种困境:

?对钻研者:终于有了一个可复现、可节造变量的尝试平台 ,做消融、做对比不再必要从零造轮子;

?对工程师:?榛杓 + 统一接口 ,从 "换主干" 到 "换基准" 再到 "上实机" 全数买通;

?对整个领域:当所有步骤都能在统一个框架里被平正地 "摆出来" ,VLA 的发展就从 "比谁声音大" ,进入到 "比谁经得起验证" 的科学阶段。

这正是一个领域走向成熟的标志 —— 也正是我们说它是具身智能的"PyTorch 时刻"的原因。

六、开源信息

StarVLA 由香港科技大学团队结合开源社区共同推出 ,目前全数代码、训练剧本、评估接口与预训练权沉已开源 ,并将持续迭代。

论文:https://arxiv.org/pdf/2604.05014代码仓库:https://github.com/starVLA/starVLA (目前已经 2.2k star, 感激各人)已支持基准:LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K已集成步骤:[QwenVL and Wan] X [FAST、OFT、π?、GR00T] 形形色色的 backbone X action header …

若是你在做 VLA 钻延注想搭一套机械人战术基线、或者只是想搞明显 "这些花里胡哨的 VLA 模型到底差在哪"——这个仓库 ,值得 Star 一下。

本文报路由港科大 StarVLA 团队提供素材 ,面向关注具身智能与机械人大模型的读者;队 GitHub 上参加会商与共建。

 

文章点评

未查问到任何数据!

颁发评论

◎欢迎参加会商 ,请在这里颁发您的见解、互换您的概想。

最新文章

热点文章

随机推荐

【网站地图】